目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到
自定义 SCWS 词库 如之前所说,我们所有的索引分词器默认为 scws,这也是我们开发的开源分词系统, 内置的词库基本上能满足绝大多数应用。但总有例外,这也就是即将说的如何自定义词库。 全局自定义词库 -----...
嗯。词库我看到了,我是想在这个基础上做加入一些新的自己的就可以,您的这个支持,动态词库吗? 还有请问哪里能下载到,你的词库原文件。没编译过的。[hr] 我看到scws的代码都集成到xapian的queryparser中了,我想直接加入新...
...分词选项] 最短词 二元 重要单字 全部单字 加入自定义词库后结果为: 阿斯顿 阿斯 斯顿 阿 斯 顿 发 斯蒂芬 斯蒂 蒂芬 斯 蒂 芬 [b]罗铭 罗 铭 罗[/b] 大大 大 大 罗 我的自定义词典为: 铭罗 1 0 n 罗铭 1 0 n 我...
我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...
... 我现在的问题是想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本,词典格式由一楼所示,现在取出来的结果并不包含任何自定义词典的关键词,求解。[/code] [php] $text =
...但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。 还有如何设置才能识别出网址和邮箱等格式? 另外关于scws-gen-dict,按照github上的...
...ch.com/doc/php/guide/util.logger[/url] 2. 小修改大提升,支持自定义 SCWS 分词词典,文本格式。但旧有索引必须重建,新增的词汇才能生效。 [url]http://www.xunsearch.com/doc/php/guide/index.dict[/url] 3. 其它一些 PHP-SDK 工具和 API的修改: XS...
...才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义词库,含新增核心库不存在的词汇及删除核心库存在词汇的功能 1) 创建相应字符集的词库文件 dict_extra.txt 2) TF/IDF 参考值查询,为方便大家我作了一个工具自...