...发布 1.3.1 正式版,在 SDK 层面加入了许多用户诉求的 scws 分词接口,并修正了许多小 BUG,强烈建议所有用户升级到这个最新稳定版本。 [b]主要更新如下:[/b] 1. 增加基于搜索服务端的 XSTokenizerScws 便于直接使用 SCWS 的分词功...
http://bbs.xunsearch.com/showthread.php?tid=2141&pid=4025#pid4025 我找到了这个帖子,不过好像结果更离谱了。 自定义的直接搜不到了理想的结果了,而数据库是存在完全匹配的。。。
测试代码如下,导致搜索:塔里木,会搜索不到结果。 require_once '/home/wlx/xunsearch/sdk/php/lib/XS.php'; $xs=new XS('westdc'); $tokenizer = new XSTokenizerScws; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的...
数据量太大了,导致分词搜索结果数太多,反而不精准了。 所以想在某些情况下可以关闭分词功能,输入的是什么就搜索什么。 翻到了这个帖子 http://bbs.xunsearch.com/showthread.php?tid=2141&pid=4025#pid4025 根据回复是设置为0即可,...
...”、“强者风范”等影片。我采用的方法是把影片名通过分词后再取其各关键词的首字母,如影片“强者风范” 分词后获取首字母得到拼音字段为“qz,ff”,查询时,根据 pinyin:ff 可查找到 “强者风范” 。 我遇到的问题是: 1...
这是分词的策略问题,这种情况可以自定义分词器来补充。。。 将你的词复制到 [url]http://www.xunsearch.com/scws/demo/v4.php[/url] 进行实测,分割结果为: E14188m E14188 14188 14188m 那么搜索以上4个词都是可以搜索到的,至于你从中提取 e...
开始一直在取舍,最后敲定了scws 经过部分测试,scws的分词还是比较准确的, 当然还是需要大量的数据测试, 以及一段时间的试运行才会有更好的结果。 就是社区稍显冷清。。呵呵 新项目内部命名为super.maria 。 策划了有一...
... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支...
首页说下我为什么安装中文分词和全文搜索。 就是因为提取出更多的页面,让搜索引擎蜘蛛没完没了的爬,达到网页聚合的目的。这样做我估计对优化很有帮助。 选择scws的原因是比较了几个中文分词后,感觉scws是一个不错的...