这个分词系统虽说是简易的,但是我觉得还是过于强大了 譬如说像我们行业类网站,要分的词不多,屈指可数,也可能就几百个 如果能提供分词方法,和一个自己可以添加的词库就好了 呵呵 谢谢
分词采用的是我们同样开源发布的 scws 见:http://www.ftphp.com/scws/ 是C版的。 此外,你所说的最大颗粒分词是指最长匹配吗?分词在 scws/xunsearch 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “...
我们站现在对帖子的发贴用户(author)有进行索引,但是出于隐私保护,又要禁止普通用户专门去搜索其他用户发的所有帖子(但是版主可以),所以需要在部分时候禁掉按author字段搜索,这时怎么做比较好?
我们发布的 xunsearch 的授权声明在此: [url]http://www.xunsearch.com/site/license[/url]
en这个可能是我们细节编 写的一个小BUG,稍后会修正,多谢汇报。因为数据太少造成和文件名冲突。