有时间在这篇文章中的一些引人注目的点,但我不知道如果我看到他们中间的心。可能有一定的正确性,但我会采取保留意见,直到我把它看得更远。好文章,感谢和我们想额外!添加到Feedburner的作为正确
...自定义字典那里。是否能自定义词性呢? 比如,现在我们的搜索, 先判断。如果搜的词 词性属于 产品类。那么我就让他跑产品库去搜索。 比如我定义 电脑 dn dn 就是我自定义的词性。这样我在scws 分词后,程序中...
全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
分词采用的是我们同样开源发布的 scws 见:http://www.ftphp.com/scws/ 是C版的。 此外,你所说的最大颗粒分词是指最长匹配吗?分词在 scws/xunsearch 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “...