还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。
我用的是 "陈凯歌并不是《无极》的唯一著作权人,一部电影的整体版权归电影制片厂所有" 这段话,不知道为什么就只能分割出来陈凯歌,如果是分词没起作用的话就不会分割出陈凯歌的,这到底是为什么呢?麻烦高人帮帮我吧
...标签来个排序,如:热门度,关联度,重复度等等。 如果xunsearch能出这么一个webservice就更好了。
... 。。 被无辜加权了 标记一下,稍后再想想怎么改进,如果您想快速解决,请修改 rules.ini 及 rules.utf8.ini 中 将 v(1) + n = 5 改为 v(1) + n = 3 就可以了。
如果凑成了词,搜索单字是搜索不到的。默认会启用二元切割,把散字智能聚合成 双字的词。 因为通常情况搜索单字意义不大。
...性能测试上提到的数据量:100万数据,数据库大小为8.1G,如果日访问量100万用户,那服务器配置要什么标准呀?对CPU、内存、硬盘I/0 有什么要求?请指教。谢谢。最好给个参考值。
[quote='hightman' pid='7092' dateline='1319384262'] 如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb'); [/quote] 是的。这没问题了。是那txt编码问题。不是utf8的话就不行的。 scws我是用utf8。
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
... bin/xs-ctl.sh fastrestart 前面加上 fast 则会保证重启成功 如果问题持续出现,将来会给 searchd 的 worker 进程加一个超时和总次数限制,以便智能释放资源。 [/quote] strace -p 23099 Process 23099 attached - interrupt to quit 用fastrestart可以...
[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词,为什么直接用scws呢,何必用xunsearch呢? [/quote] 因为同一个系统里面,既有需要分词提取tag的地方,又有搜索,当然会出现此情况了。目前已安装scws来实现该功能...