只有在完全空缺词库的情况下才自动加载默认词库,只要你曾经add_dict,或set_dict那么就不会加载默认词库了。这并不算BUG吧。 这是给懒人设定的规则,当你试图设置词典时那就完全交给你决定,而不是系统强制无论如何都先加...
search.log 的生成是有一些规则判断和调整的,并不是如你所说的。自定义词典也会纳入考虑,但过于复杂的搜索语句是不会记录的。
谢谢 hightman 的回答. 不过我确定我市完全按照你说的做的 php.ini 是这样的配置 [scws] extension=scws.so scws.default.charset=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
希望能附上完整的PHP代码以及你的自定义词库,以做分析和测试。 从上面少结果的看,应该是词库不生效,而结果只按人名规则合成了2个人名,其它的按无效字符过滤。
楼主,为什么不能发新帖了啊。我用1.18 php_scws.dll(2) 对应的php版本为 5.2.3 完全按照文档目录 php_scws.dll/Win32 安装说明 这个上面做的。而且安装完扩展之后echo phpinfo();也看到了 scws服务已经有了。 在运行时加了 scws.default.charset...
使用了自定义字典。完全忽略自带的字典。 然后我在字典里面 分词 : 北海365 365 就这两个词。 然后我 搜的时候 是 : 北海365 这时候返回的分词 却只有: 365 “北海”不见了 如果我启动系统自带词典 那么“...
...才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义词库,含新增核心库不存在的词汇及删除核心库存在词汇的功能 1) 创建相应字符集的词库文件 dict_extra.txt 2) TF/IDF 参考值查询,为方便大家我作了一个工具自...
...试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工作了,...