[quote='hightman' pid='8876' dateline='1333164684'] txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛 [/quote] 谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
... 我现在的问题是想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本,词典格式由一楼所示,现在取出来的结果并不包含任何自定义词典的关键词,求解。[/code] [php] $text =
谢谢 hightman 的回答. 不过我确定我市完全按照你说的做的 php.ini 是这样的配置 [scws] extension=scws.so scws.default.charset=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有...
...ch.com/doc/php/guide/util.logger[/url] 2. 小修改大提升,支持自定义 SCWS 分词词典,文本格式。但旧有索引必须重建,新增的词汇才能生效。 [url]http://www.xunsearch.com/doc/php/guide/index.dict[/url] 3. 其它一些 PHP-SDK 工具和 API的修改: XS...
...但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。 还有如何设置才能识别出网址和邮箱等格式? 另外关于scws-gen-dict,按照github上的...
楼主,为什么不能发新帖了啊。我用1.18 php_scws.dll(2) 对应的php版本为 5.2.3 完全按照文档目录 php_scws.dll/Win32 安装说明 这个上面做的。而且安装完扩展之后echo phpinfo();也看到了 scws服务已经有了。 在运行时加了 scws.default.charset...
[quote='hightman' pid='7103' dateline='1319824645'] 你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典 [/quote] 您好,用自定义词库是可以解决但却不是太方便,如果SCWS不能这样的配置,...
...才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义词库,含新增核心库不存在的词汇及删除核心库存在词汇的功能 1) 创建相应字符集的词库文件 dict_extra.txt 2) TF/IDF 参考值查询,为方便大家我作了一个工具自...
...才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义词库,含新增核心库不存在的词汇及删除核心库存在词汇的功能 1) 创建相应字符集的词库文件 dict_extra.txt 2) TF/IDF 参考值查询,为方便大家我作了一个工具自...