搜索

大约有 37 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0052秒)

11.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

发布时间:2013-07-03 14:07 t By hightman

其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。

12.怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

发布时间:2013-07-02 17:07 t By shuyinglee

我在字典里面添加了 "HYC888仪表" 这个词,但是非词的结果却是 "HYC" "888" "仪表" 这三个词语; 确认词典中没有这三个单独的词语; 我的应用中这样的词语很多很多,希望能够整词匹配。 我看了 前面的一个帖子,说要修改...

13.英文数字组合字符串分词问题,已结贴。

更新时间:2014-05-14 10:05 t By hpxl

华硕主板H61-PLUS,想分词结果中包含H61。 通过 [url=http://www.xunsearch.com/scws/demo/v48.php]http://www.xunsearch.com/scws/demo/v48.php[/url] 得到的结果为“华硕/主板/H/61/-/PLUS”。尝试过自定义词库,$prefix/data/项目名称/dict_user.txt 加入H61,但是...

14.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...e_rule(scws_t s, int yes)` 设定分词结果是否忽略所有的中英文组合,强行使用字典中的词语 > **参数 yes** 1 表示不忽略,0 表示忽略,缺省情况为不忽略。 SimpleCWS - PHP API 文档 `bool scws_use_rule(resource scws_handle, bool yes)` `...

15.自定义词库怎么控制(字母+数字)组合的个数

发布时间:2012-08-27 16:08 t By kill-all999

我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...

16.RE: 搜索数据丢失

更新时间:2014-07-17 15:07 t By xunsearch飞吧

...话,有些还是根据地址搜索的,真心纠结,2的n次幂 -1 的组合,这组合太多了,纠结!谢谢你了[hr] [quote='bigxu' pid='8360' dateline='1405578798'] http://www.xunsearch.com/site/search?q=%E5%8D%95%E5%AD%97+%E5%88%86%E8%AF%8D [/quote] 谢谢!

17.XSTokenizerScws::setDuality

...setDuality(bool $yes=true) $yes bool 是否开启散字自动二分组合功能 {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L316 (显示) public function setDuality($yes = true){ $this->_setting['duality'] = new X...

18.发现有几种情况会导致分词不准确?

发布时间:2011-09-15 14:09 t By 逆雪寒

...:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个半角符号 是怎么一个情况呢? 感谢感谢

19.xunsearch建议

发布时间:2011-10-22 23:10 t By quankun

发现xunsearch很有前途的。 如果能够再将爬虫部分也一起组合起来,并提供前端PHP页面。。。提供一体化的解决方案就更方便了。。。。

20.RE: 遇到一个分词错误的问题

发布时间:2014-02-10 10:02 t By hightman

rule.utf8.ini里那些调节是通过常用词性组合来改变权重,这要求 词典的词性必须十分准确才行

1234
  • 时间不限
  • 按相关性排序