...指最长匹配吗?分词在 scws/xunsearch 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “管理制度” OR “管理 AND 制度”
...------- 我自己尝试调tf-idf都失败了,感觉这些词是被特殊处理的,没有按tf-idf来算? 因为量词太多,不可能一个个从词典用!删去……
谢谢马老师 [ 应该是吧:-)]的及时回复。 我在研读代码的时候,看到有段代码注释着,是对半字的处理,并不是很理解,对于文字都是1-4字节的UTF-8存储编码。 半字是种什么情况呢?
...search暂时还没有提供这项功能,但可以先变通的如下方式处理: 在提取API后面自己再简单加个判断?现在新版 1.3.1 提供了 scws 接口,只要把这些黑词加到自定义词典,并取一个独特的词性,那么就可以用 XSTokenizerScws::hasWord() ...
...不会检测的,如果你重复添加就会有多条,这个你要自己处理的呃 我看官方文档说使用文档更新语句话他会先判断是否存在,存在就更新,不存在就添加,但是效率要比直接添加慢,因为有个判断过程