...的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都相当大。开始全部...
...s->buf); $tmp['word'] = XS::convert($tmp['word'], self::$_charset, 'UTF-8'); $words[] = $tmp; $res = self::$_server->getRespond(); } return $words;} 获取分词结果
...s->buf); $tmp['word'] = XS::convert($tmp['word'], self::$_charset, 'UTF-8'); $words[] = $tmp; $res = self::$_server->getRespond(); } return $words;} 获取分词结果 getTokens() 方法 public void getTokens($value, $doc=NULL) $value $doc ...
...情况下会自动搜索 ini(scws.default.fpath) 底下的 dict.xdb/dict.utf8.xdb,如果调用过 add_dict 或 set_dict 则不会再触发该功能,故采用额外词库时原核心词库必须显式地调用才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义...