多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
一个快速解决办法在 rules.ini 及 rules.utf8.ini 的 v + v = 10 之后添加以下一行 q + vn = 10 即可
锅炉的用法上 No. WordString Attr Weight(times) ------------------------------------------------- 01. 法上 nz 14.14(1) 02. 锅炉 n 5.86(1) 分词也不对的[hr] 下载的rules.ini里没有v+v=10这个东西
呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性