...想要做屏蔽词,只载入自定义的屏蔽词库,但好像英文及中英文混合分词都无效。 譬如: $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('words.txt',SCWS_XDICT_TXT); $so->set_ignore(true); $so->send_text("GMhello指导员"); echo ''; while ($tmp = $so->get_res...
楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确
[quote='hightman' pid='3145' dateline='1244985795'] 楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太...
...这是哪里没配置的原因么? 我在网站上在线分词那输入中英文确是可以混合的,比如关键词输入“我是test中国人”,在线分词会给出“我是 test 中国人 中国 国人 ”,这是什么情况呢? 我的环境是:win7+php5.4+scws的
如果只要文章中有Linux出现就算是Linux相关文章的话,其实是不需要分词了,直接用全文搜索Linux就好了。 只是SCWS目前看前来它的自定义词典不支持超过3个字,如果可以的话,可以通过自定义“Linux优化”来指定分词
...研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj...
富贵鸟(Y1W) 类似这样的名称分词的结果 却是 富贵 鸟(Y1W) 最关键的 Y1W 没有被分出来。 而且 六灯夜视D502 这样的名称 也只能分出 中文, 英文和数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二...
我也遇到相同的問題。 不過我數字可以,但是[color=#0000CD]英文[/color]不能。 我是使用[color=#FF0000]繁體字庫[/color]。 版本是:php_scws.dll(2)/Windows/PHP 5.2.x [php] [/php] 結果在下面: [code] 原始文字:這個文件是為了...
...库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效...