其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。
我在字典里面添加了 "HYC888仪表" 这个词,但是非词的结果却是 "HYC" "888" "仪表" 这三个词语; 确认词典中没有这三个单独的词语; 我的应用中这样的词语很多很多,希望能够整词匹配。 我看了 前面的一个帖子,说要修改...
华硕主板H61-PLUS,想分词结果中包含H61。 通过 [url=http://www.xunsearch.com/scws/demo/v48.php]http://www.xunsearch.com/scws/demo/v48.php[/url] 得到的结果为“华硕/主板/H/61/-/PLUS”。尝试过自定义词库,$prefix/data/项目名称/dict_user.txt 加入H61,但是...
...e_rule(scws_t s, int yes)` 设定分词结果是否忽略所有的中英文组合,强行使用字典中的词语 > **参数 yes** 1 表示不忽略,0 表示忽略,缺省情况为不忽略。 SimpleCWS - PHP API 文档 `bool scws_use_rule(resource scws_handle, bool yes)` `...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
...话,有些还是根据地址搜索的,真心纠结,2的n次幂 -1 的组合,这组合太多了,纠结!谢谢你了[hr] [quote='bigxu' pid='8360' dateline='1405578798'] http://www.xunsearch.com/site/search?q=%E5%8D%95%E5%AD%97+%E5%88%86%E8%AF%8D [/quote] 谢谢!
...setDuality(bool $yes=true) $yes bool 是否开启散字自动二分组合功能 {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L316 (显示) public function setDuality($yes = true){ $this->_setting['duality'] = new X...
...:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个半角符号 是怎么一个情况呢? 感谢感谢
发现xunsearch很有前途的。 如果能够再将爬虫部分也一起组合起来,并提供前端PHP页面。。。提供一体化的解决方案就更方便了。。。。