比如说我要切割“Adidas/阿迪达斯是一个著名的运动品牌” 在自定义词库里我添加了"Adidas/阿迪达斯" 但结果是Adidas / 阿迪达斯 请问能否判断是一个自定义的整词吗?就是说按我设置的词库来分
比如我在词述中已导入“创业CEO”这个词,但在输入文章的时候,出现的却是: 创业,CEO 如何将这个词合关成一个单独的词汇? 管理员有办法不?
如股票名: *ST海龙 已经在词库中,但分词结果: “ST”和“海龙” 请问有现成的解决办法吗? 经反复测试,ST海龙可以拆分,*ST海龙不可拆分
...想要做屏蔽词,只载入自定义的屏蔽词库,但好像英文及中英文混合分词都无效。 譬如: $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('words.txt',SCWS_XDICT_TXT); $so->set_ignore(true); $so->send_text("GMhello指导员"); echo ''; while ($tmp = $so->get_res...
楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确
[quote='hightman' pid='3145' dateline='1244985795'] 楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太...
...库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效...
...ws/download.php[/url] -- [b]scws-1.2.2 发布于 2013-7-11[/b] 1) 改进中英夹杂的长词复合分法,比如 "奥迪A6/奥迪/A6" 2) 修正 pscws23 演示文件的一些写法与新版 PHP 不兼容 3) 修正一些 configure 检测错误 [b]scws-1.2.1 发布于 2013-1-15[/b] 1) 将源...
...s,使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的结果是“ABC" "支持“ ”开源“, 而...