还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。
如果是xunsearch搜索日志你不需要手动导入,它已经自动处理过了。 外部来的可以导,手册很明确指出搜索日志用于拼音建议、相关搜索。至于你所谓的精准度,似乎毫无关系
...分有DLL,C库部分因为我也不熟WIN平台,但有提供源码,如果你会弄就帮弄一下我可以在发布包中一并提供。 像你这样的情况因为“沈阳若”被识别为姓名了,这是一种比较难以决断的岐议,要说分成“小”“沈阳若”在美国语...
...标签来个排序,如:热门度,关联度,重复度等等。 如果xunsearch能出这么一个webservice就更好了。
基本上会保证在相对前面,但内部用BM25计算的,如果有些文章包含的词次数更多可能会在前面吧。 最好给出例子和实际页面。
... 。。 被无辜加权了 标记一下,稍后再想想怎么改进,如果您想快速解决,请修改 rules.ini 及 rules.utf8.ini 中 将 v(1) + n = 5 改为 v(1) + n = 3 就可以了。
...进? 2)数据量起步在1亿条左右,检索速度能满足么?如果分库,是联库检索吗? 3)xapian一般应该是定时建索引,能否支持实时建?若不能,有无替代办法? 4)有没有pdf,doc,ppt之类的入库工具? 多谢多谢!
我用的是 "陈凯歌并不是《无极》的唯一著作权人,一部电影的整体版权归电影制片厂所有" 这段话,不知道为什么就只能分割出来陈凯歌,如果是分词没起作用的话就不会分割出陈凯歌的,这到底是为什么呢?麻烦高人帮帮我吧
[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词,为什么直接用scws呢,何必用xunsearch呢? [/quote] 因为同一个系统里面,既有需要分词提取tag的地方,又有搜索,当然会出现此情况了。目前已安装scws来实现该功能...
...oot:pass@localhost/dbname --sql="SELECT * FROM tbl_post" --project=demo 如果是程序中添加索引,参考[url=http://www.xunsearch.com/doc/php/guide/index.rebuild]http://www.xunsearch.com/doc/php/guide/index.rebuild[/url]