[quote='vist2007' pid='126' dateline='1319615395'] 非常感谢...也在刚开始学习xunsearch xunsearch采用 scws 分词 xunsearch好像集成了 scws 对于分词 xunsearch 可以通过 XSTokenizer 扩展 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实...
... 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 因为项目的实际需要,数字和字母超位2位的情况会很多,请问下:“最多只支持2位” 这种限制是在 /etc/rules.utf8.ini 中定义的,还是在源码里处理...
...发一个API直接在函数里生成临时词库供调用。 [/quote] 感谢管理员回复. 其实我的意思大概可以简化为: 最长分词模式. 分出来的词要达到符合语法的最长.这个难度估计不小,呵呵,也可能是比较不现实的需求. 自己架设scws分词库...
[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!
...] 在虚拟机中使用SCWS并不需要任何特殊的处理 [/quote] 感谢您的回复!不过,我在您网站的教程里看到,SCWS需要使用命令来编译程序,和需要修改php.ini,虚拟机都没有这种权限,不知道要如果使用。谢谢[hr] [quote='hightman' pid=...
...模糊就行了,比如按3个字母为单位建立? [/quote] 非常感谢! 我刚试了下,针对我的需求来说,对于人物英文名以3个字母为单位建立索引的确可以达到很好的效果,中文名以一个汉字为单位。 最后贴出我的代码给有需要...
感谢 七夜 兄的测试和指出,现在已经作了修正。原因是对输入的编码做了二次校正。 改法参见 GIT 仓库,因为输入的数据已经统一转成 UTF-8 了,所以搜索服务端应统一使用 UTF-8 即可。 [url]https://github.com/hightman/xunsearch/commit...