通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
...粒分词是指最长匹配吗?分词在 scws/xunsearch 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “管理制度” OR “管理 AND 制度”
是一次重建, 但是重建过程是没有问题的, 因为一直用的是同样的办法重建很多次都可以。 最近开始重建就无法再增加了。
比如比如我希望用SCWS能搜索 一个关键词的信息,但是现在虽然内容里面有很多这包含这个词语的信息了, 但是搜索的时候却搜索不到. 应该如何处理呢? 如果是修改rules.ini文件的话,难道是加到[special]这个位置吗???
hightman, 规则集配置文件的说明文档在哪里? 没有说明文档根本就没有办法是用哪个规则集啊, 很多东西都猜不出来. 停用词怎么添加和使用整了一天了都没搞明白怎么弄. 希望给一份规则集的说明文档, 万分感谢.
我查了一下, Sphinx的性能要比Xapian好很多,而且比较成熟,文档也比Xapian多!为什么非要用Xapian,而不用Sphinx呢?
我的也无法加载,php版本为5.3. 估计不是路径问题,是php版本问题。感觉现在服务器系统用windows的很多。建议也重视23版的开发和升级,比如加入get_tops等