对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可,以上步骤根据不同用户权限略有不同。
scws分词后的直接做标签都有不错的效果了 :) 我理解其实就是搜索过程的一个反向 正常搜索就是 一句话 -> 分词 -> 搜索匹配 -> 输出 具体实现上 那匹配标签或者关键字这么做似乎也行 一句话 -> 分词 -> 搜索匹配 -> 前10个结果...
多谢建议。这个部分要做得精准的话其实是比较尖端的,SCWS分词后有提供一些热门词排序,如果简单归结为标签也是不妥的,我觉得需要有标签库进行匹配和比对。
...类。 我想XUNSEARCH是否可以实现, 文章发过来的,自动分词的基础上,得出最适合本文的标签。 这里可以按照权重来给标签来个排序,如:热门度,关联度,重复度等等。 如果xunsearch能出这么一个webservice就更好了。
SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。 [url=http://www.xunsearch.com/scws][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://w...
...分类性的,这个不能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却不适合做标签的; 有些热门的词汇,流行词汇,那种带有明显时效性可以加权,如‘凤姐’,‘芙蓉姐姐’, 有点类似百度风云榜的感觉; ...
...采用 C/C++ 编写,索引设计基于著名而悠久的 [Xapian][1],分词采用 自主研发同样也是开源的 [SCWS分词][2],两者完美结合,理论上单个搜索库支持 40 亿条 记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...
这个分词系统虽说是简易的,但是我觉得还是过于强大了 譬如说像我们行业类网站,要分的词不多,屈指可数,也可能就几百个 如果能提供分词方法,和一个自己可以添加的词库就好了 呵呵 谢谢