多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
一个快速解决办法在 rules.ini 及 rules.utf8.ini 的 v + v = 10 之后添加以下一行 q + vn = 10 即可
呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
这个检测是从左往右检测,因为“冰包”不存在,所以后面的餐桌也就不显示了。 这个是处理上的一个隐规则,或许将来会得到改变。
其实我更应该感谢你,这个程序做的非常棒。我找了很多分词的方案,做得如此精炼的只有这一个。 这个错误造成的coredump 是无法预测的地方,所以非常难定位。
PSCWS23 词典文件如何制作 xdb导入导出工具导出信息如下 ---------------------------------- # WORD TF IDF ATTR ---------------------------------- 除了表头,一个都没导出。。。。。。
在xdb.class.php中有一个函数Put,可以写入xdb词库.可是put的两个参数格式应该是什么样的?新人刚学php,看不懂的说,能不能有大神给我说一下.谢谢了