多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
其实我更应该感谢你,这个程序做的非常棒。我找了很多分词的方案,做得如此精炼的只有这一个。 这个错误造成的coredump 是无法预测的地方,所以非常难定位。
生成搜索骨架代码测试时报错,错误:[XSException] sdk/php/lib/XS.php(2008): Permission denied(C#13)[hr] 管理员看一下,怎么回事啊。第一次用。自己顶一下。