[quote='zfzeng' pid='4086' dateline='1299162416'] 下下来只有100多k,解压也是空的,麻烦看下啦 [/quote] 重新下载 我这里没问题的说~
[quote='hightman' pid='8876' dateline='1333164684'] txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛 [/quote] 谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知...
好吧,我考虑加一个。。。 最新 1.4.9-dev 版新增接口: XSSearch::getSynonyms(string $term); 也可以用 util/Quest.php --list-synonyms=??? 来列出 ??? 的全部同义词
问题是系统在使用自定义词库的时候,添加的词能不能算是基词?是否使用同义词的时候可以进行关联? 就目前的情况是添加了自定义词之后,如果这个词不算是基词,关联的同义词就无效、、、、
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
1. 需要重启 xs-searchd 2. 只读取 dict_user.txt 3. 系统的同时生效,但 dict_user.txt 优先级更高 4. 词性完全可以自定义,但最多 2个字节
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
我看你写了个only support gbk,是不是只支持GBK编码的?为什么我用了还不行呢?[hr] [quote='hightman' pid='3603' dateline='1275724275'] 早期的程序有一小地方判断错误,在结束导出的时候会那样。新的代码都修正了,你从主页上下载最新的那...
...在postgresql整合了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果...