请问scws分词如何实现优先级?
我想一些特有的词汇优先排列在前面,应该怎么实现啊?
更新时间:2010-10-13 16:10 t
By 逆雪寒
如果能让 我自定义的字典优先匹配呢?
感觉这样的才比较符合项目需求
Hm help me~~
我测试了好像仅仅提高tf值不可以的吧?应该跟IDF值有关系吧?
更新时间:2010-10-12 15:10 t
By 逆雪寒
好的感谢 HM 我试试[hr]
OK了。可以了。呵呵的确是这样
...h/to/dict.self.txt', SCWS_XDICT_TXT);
那么就是后面的 dict.self.txt 优先查询,如果 dict.self.txt 中不存在相关记录才会往回查 dict.utf8.xdb,反之也一样
更新时间:2011-08-08 17:08 t
By 999
恩,我也出现这样的问题,我编码是GBK,加载txt自定义字典后无法取得字典中的内容。
你这种写法txt会把上面的xdb覆盖掉的。
可以使用add_dict增加xdb字典的后面并优先。
这个应该没办法,所有的调整都是基于词典,也就是词典的优先级最最高了。
可以用程序扫出类似的词来删除它们,因为互联网语料库这些自动都列到词里了。
不是无法,而是后面的词出现在词库中导致的。规则识别适用于无法成词的散字,匹配词库则会优先。
请注意仔细看说明啊。
词典越往后添加的优先级越高。所以你把TXT的放在XDB后面为佳。否则2者冲突时以后者为准。