...添加原有的词库 $scws = scws_new(); $scws->set_dict("/path/to/dict.utf8.xdb"); $scws->add_dict("/path/to/dict",SCWS_XDICT_XDB); 这样, 原有的词库有了。。自定义的又没了。。都使用add_dict也不行, 如果手动添加词库, 自定义的就没有了。。 环境: ph...
...s->buf); $tmp['word'] = XS::convert($tmp['word'], self::$_charset, 'UTF-8'); $words[] = $tmp; $res = self::$_server->getRespond(); } return $words;} 获取分词结果
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
写了一行脚本,将代码转为 UTF-8 编码的源文件: #!/bin/bash for i in `find ./ -type f |grep -v 'batch' ` ; do iconv $i -f gbk -t utf8 -o ${i}.tmp && mv ${i}.tmp $i ; done
[quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明有3M多的
...uote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改词也必须转换成这个词典文件才能用。 词典转换关于SCWS的网站上有。
...法再次切割。 简单解决可以将这类词,添加到 etc/rules.utf8.ini 中的 [specials] 中作为特殊词,如果词量比较大和不确定,那先用 XSSearch::addQueryTerm 来构造搜索语句。 或者等下一个版本,考虑给 xapian 打个补丁,对于某些自定义分...
...加了自定义词,系统不能提取到上面2个词 2、在 /etc/rules.utf8.ini里添加专业的词,我在 [special] 下添加了上述2个词,结果还是没能提取到 麻烦了,在此先行谢过了!
...?[hr] 呃 发现必须的加 -c gbk 由于我使用的putty设置的是utf8的原因, 虽然显示有点不正常,但加上 -c gbk 就可以了
...多,请问下:“最多只支持2位” 这种限制是在 /etc/rules.utf8.ini 中定义的,还是在源码里处理的? 如果要修改,使其支持更大长度的分词,该从哪里入手呢? 麻烦了!