scws分词时出现这样的情况,英文字母与数字组合分词时,若词的前面或后面有标点符号,则英文字母和数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...
scws源码中写死的…… 超过2个字符的英文数字都在第一步被预处理了,所以想要改这个恐怕了也会比较麻烦。
hi,hightman, 你好,我现在用切词,发现中英文混合的英文超过2个就被切分了,要怎么才能取消这个限制呢?比如有个词是 "某某大学MBA", 不要被切分成两个词,希望能得到解答。
sdk/php/app/demo.ini配置 [php] [id] type = id [productsName] type = title tokenizer = scwsSplit [/php] 自定义字母、数字分词类 sdk/php/lib/XSTokenizerScwsSplit.php [php]
C++版本和官网演示分词不一致。 ".mp3",在线演示切分成". mp3",C++版本 1.22切分为". mp 3";
如题 ,比如我在dict_user文件里添加abc10000,查看分词的时候,它还是会分成abc +10000,这样就达不到效果了、、、
[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库? 像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗?
支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。