搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.英文与数字组合词分词错误

发布时间：2014-04-20 16:04 t By tenjin

scws分词时出现这样的情况，英文字母与数字组合分词时，若词的前面或后面有标点符号，则英文字母和数字将会被拆分开，不知道是什么原因？有没有解决的办法？ ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...

2.RE: 英文数字组合字符串分词问题

发布时间：2014-05-14 08:05 t By soarb

我也有同样的问题，自己字义的英文字典，但无法使用。

3.RE: SCWS 能否添加 “中文＋英文”和“中文＋数字”自定义词

更新时间：2012-09-03 11:09 t By hightman

scws源码中写死的…… 超过２个字符的英文数字都在第一步被预处理了，所以想要改这个恐怕了也会比较麻烦。

4.怎么去掉英文数字超过2个会被切分的限制

发布时间：2013-12-26 14:12 t By linqingtao

hi，hightman, 你好，我现在用切词，发现中英文混合的英文超过2个就被切分了，要怎么才能取消这个限制呢？比如有个词是 "某某大学MBA"，不要被切分成两个词，希望能得到解答。

5.RE: 英文数字组合字符串分词问题

更新时间：2014-05-14 10:05 t By hpxl

sdk/php/app/demo.ini配置 [php] [id] type = id [productsName] type = title tokenizer = scwsSplit [/php] 自定义字母、数字分词类 sdk/php/lib/XSTokenizerScwsSplit.php [php]

6.RE: 英文与数字组合词分词错误

发布时间：2014-04-23 10:04 t By tenjin

C++版本和官网演示分词不一致。 ".mp3"，在线演示切分成". mp3",C++版本 1.22切分为". mp 3";

7.数字与英文组合的字典词不能有效

发布时间：2012-07-11 11:07 t By 290977824@qq.com

如题，比如我在dict_user文件里添加abc10000,查看分词的时候，它还是会分成abc +10000，这样就达不到效果了、、、

8.RE: 英文数字组合字符串分词问题

发布时间：2014-05-14 11:05 t By soarb

[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库？像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗？

9.RE: 数字与英文组合的字典词不能有效

发布时间：2012-07-16 12:07 t By hightman

自定义词不支持这样的。这样的在SCWS预处理阶段就已经被分割了。

10.RE: SCWS 能否添加 “中文＋英文”和“中文＋数字”自定义词

发布时间：2012-08-30 12:08 t By hightman

支持是支持的，但数字字母最多只支持2位。你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。像 Q币 QQ空间　这样的都是可以支持成词的。

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索