在使用scws分词的时候,如果输入40多个“卡”字,最后分出来的那个词少了一个字节,就是说在utf8下原本3字节的一个“卡”字,变成了两个字节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???
测试了一下,在NOT specialcid:XXX 前面有搜索关键词的时候是正常的。。如果前面没搜索关键词的话没有效果。。
最近项目加了个搜索建议,但是单个字有时候没有建议词返回,于是就按照访问量直接获取了前10条 根据匹配标题,标题切了,spit(|)作为搜索结果返回,这回是有了效果,但是我输入拼音没有了效果,请问这个怎么才可以啊?
通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
使用xunsearch进行搜索的时候,有的关键字和翻页查询时间最高到11s.我运行的$query都是一些简单基本的语句,请问有什么方法和手段可以来提高查询效率.比如开启缓存模块等等.(ps:服务器都是32g内存 cpu也比较高)
如题 ,比如我在dict_user文件里添加abc10000,查看分词的时候,它还是会分成abc +10000,这样就达不到效果了、、、
生成搜索骨架代码测试时报错 是生成好的代码,我测试的时候报的这个错。 错误:[XSException] sdk/php/lib/XS.php(2008): Permission denied(C#13) 我把sdk这个目录复制到了我的web站点下,给了777的权限还报这个错误。求解。
需要增加一个新词“中国梦”。 使用的php XDB工具,增加词库后导入生成xdb文件。 重新生成coreseek的索引 索引的时候还是搜不出来这个词。 我确认使用的是utf-8 no-bom头的格式。 请问如何解决。谢谢
用siege测试,启20个search worker,200个连接去压测,运行一段时间后,进程就挂掉,重启的时候,search master停不掉