这个应该没办法,所有的调整都是基于词典,也就是词典的优先级最最高了。
可以用程序扫出类似的词来删除它们,因为互联网语料库这些自动都列到词里了。
明白了。。。把分类ID都添加到索引里面,就不需要那些or什么的了。。谢谢老大。。。
addRange 后会影响概率计算,count 会有问题
发布时间:2013-12-25 15:12 t
By ecpt
感谢你们的努力和付出,如果有钱,我一定会捐赠的
rule.utf8.ini里那些调节是通过常用词性组合来改变权重,这要求 词典的词性必须十分准确才行
这个就是用来辅助调节的,要不断适应用修整,这套机制下没有更好的办法了。