搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

221.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-25 12:11 t By hightman

还是不明白！你把这段文字用scws切割会有问题吗？如果你这段字是用空格或逗号分隔，那么你可以用 split 这个分词器啊。搜索的时候搜索任何一个分割后的TAG都可以搜索到。

222.RE: 我有10多万条用户搜索记录，导入到日志中，有什么用

发布时间：2012-02-20 16:02 t By hightman

如果是xunsearch搜索日志你不需要手动导入，它已经自动处理过了。外部来的可以导，手册很明确指出搜索日志用于拼音建议、相关搜索。至于你所谓的精准度，似乎毫无关系

223.RE: 如何处理“小沈阳”这种模式的词句！？

发布时间：2010-10-28 11:10 t By hightman

...分有DLL，C库部分因为我也不熟WIN平台，但有提供源码，如果你会弄就帮弄一下我可以在发布包中一并提供。像你这样的情况因为“沈阳若”被识别为姓名了，这是一种比较难以决断的岐议，要说分成“小”“沈阳若”在美国语...

224.结合搜索引擎来制作自动标签系统

发布时间：2011-12-07 00:12 t By rogical

...标签来个排序，如：热门度，关联度，重复度等等。如果xunsearch能出这么一个webservice就更好了。

225.RE: 关键词包含多个词时,如何让结果按相关度排序?

发布时间：2011-12-13 13:12 t By hightman

基本上会保证在相对前面，但内部用BM25计算的，如果有些文章包含的词次数更多可能会在前面吧。最好给出例子和实际页面。

226.RE: 提高人民生活水平的分词有误

更新时间：2011-01-04 14:01 t By hightman

... 。。被无辜加权了标记一下，稍后再想想怎么改进，如果您想快速解决，请修改 rules.ini 及 rules.utf8.ini 中将 v(1) + n = 5 改为 v(1) + n = 3 就可以了。

227.请教hightman几个问题，请进

发布时间：2012-11-22 12:11 t By hzqbbc

...进？ 2）数据量起步在1亿条左右，检索速度能满足么？如果分库，是联库检索吗？ 3）xapian一般应该是定时建索引，能否支持实时建？若不能，有无替代办法？ 4）有没有pdf，doc，ppt之类的入库工具？多谢多谢！

228.php5.2.13的scws只能分割出人名

发布时间：2010-05-05 17:05 t By hight

我用的是　"陈凯歌并不是《无极》的唯一著作权人，一部电影的整体版权归电影制片厂所有"　这段话,不知道为什么就只能分割出来陈凯歌,如果是分词没起作用的话就不会分割出陈凯歌的,这到底是为什么呢?麻烦高人帮帮我吧

229.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-30 12:11 t By limingyao

[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词，为什么直接用scws呢，何必用xunsearch呢？ [/quote] 因为同一个系统里面，既有需要分词提取tag的地方，又有搜索，当然会出现此情况了。目前已安装scws来实现该功能...

...oot:pass@localhost/dbname --sql="SELECT * FROM tbl_post" --project=demo 如果是程序中添加索引，参考[url=http://www.xunsearch.com/doc/php/guide/index.rebuild]http://www.xunsearch.com/doc/php/guide/index.rebuild[/url]

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索