杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...
...eline='1303195392'] 新版会开发一个API直接在函数里生成临时词库供调用。 [/quote] 感谢管理员回复. 其实我的意思大概可以简化为: 最长分词模式. 分出来的词要达到符合语法的最长.这个难度估计不小,呵呵,也可能是比较不现实的...
...arch->getAllSynonyms(); print_r($synonyms); [/php] 没的数据 2:同义词库是不是要自己去做啊?官方有木有词库啊?或者一键导入 3:开启同义词后是不是压力增大了N多啊??
...同结果,请问这是什么原因导致?非常感谢! 使用扩展词库结果: 大连金龙钢丝绳 、钢丝绳扣 、合成纤维吊装带 -> 连金龙|成纤维| 大连金龙钢丝绳 、钢丝绳扣 、合成纤维吊装带 -> 大...
我现在想要做屏蔽词,只载入自定义的屏蔽词库,但好像英文及中英文混合分词都无效。 譬如: $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('words.txt',SCWS_XDICT_TXT); $so->set_ignore(true); $so->send_text("GMhello指导员"); echo ''; while ($tmp = $so...