...大的cpu,并且data文件夹里的文件大小也一直在变化,是不是虽然索引导入完成,还有一些其他的工作在执行?
...txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效果,要是scws能处...
...试了多种方式,结果均是这种情况。请highman帮忙看看是不是真的有问题,另外我的xunsearch版本1.4.8,1.4.7-dev都不行。
返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字
能否试试打印 add_dict 的返回值,在异常的时候看看是不是 true~ 看了你的贴子我特地再做了一翻测试,add_dict,无没问题。我的相关代码及设置: 1. php.ini的设置 [code] [hightman@d1 hightman]$ php -i | grep scws scws SCWS BugReport => http://w...
...器拆分重新组合成查询语句,发送到 xapian 解析器时由于不是 boolean prefix,因此它又会调用内部切词法再次切割。 简单解决可以将这类词,添加到 etc/rules.utf8.ini 中的 [specials] 中作为特殊词,如果词量比较大和不确定,那先用 X...
我之前主键是 Article:12345 这样会记录越来越多 直接 12345 好像就不会了[hr] Article:12345 会重复 12345 不会 article:12345 (小写)也不会 ..这算是bug吗?不是说不区分大小写吗? [hr] 本地环境: OS X 10.9.2 (13C64)
...回值的时候排除它。。 因为你是包含的作法的话,是不是“人们”“人家”“人民”全都要过滤了??这样肯定不合适,所以建议直接根据词性过滤吧。这些无意义的词词性通常可以确定的!
顶一下,再问一遍~ configure: error: Invalid xapian library, maybe not do the patch with scws?. 请问这是为什么啊?是不是我不小心运行那个patch的sh脚本啊!!