C++版本和官网演示分词不一致。 ".mp3",在线演示切分成". mp3",C++版本 1.22切分为". mp 3";
如题 ,比如我在dict_user文件里添加abc10000,查看分词的时候,它还是会分成abc +10000,这样就达不到效果了、、、
scws分词时出现这样的情况,英文字母与数字组合分词时,若词的前面或后面有标点符号,则英文字母和数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...
sdk/php/app/demo.ini配置 [php] [id] type = id [productsName] type = title tokenizer = scwsSplit [/php] 自定义字母、数字分词类 sdk/php/lib/XSTokenizerScwsSplit.php [php]
[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库? 像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗?