多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
一个快速解决办法在 rules.ini 及 rules.utf8.ini 的 v + v = 10 之后添加以下一行 q + vn = 10 即可
呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
这个检测是从左往右检测,因为“冰包”不存在,所以后面的餐桌也就不显示了。 这个是处理上的一个隐规则,或许将来会得到改变。
希望能附上完整的PHP代码以及你的自定义词库,以做分析和测试。 从上面少结果的看,应该是词库不生效,而结果只按人名规则合成了2个人名,其它的按无效字符过滤。
可以的啊,用SCWS_XDB工具导出成TXT格式就可以编辑了. 但要注意词性最多2个字符,不可以是#和@和!,这三个有特殊函义