搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 自定义词库怎么控制（字母+数字）组合的个数

发布时间：2012-08-28 10:08 t By kill-all999

JB银，发的啥J*玩意

...现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 ...

3.RE: 怎样才能字母数字汉字组合按照词典分成一个词语呢？

发布时间：2013-07-03 14:07 t By hightman

你可以把patch通过 [code] 标签发上来。顺便给你看看改得有没有遗漏。

4.RE: 怎样才能字母数字汉字组合按照词典分成一个词语呢？

发布时间：2013-07-03 16:07 t By hightman

这个改法我感觉不怎么好，没有普遍性。这样会导致中英文合的出问题。。。

5.RE: 怎样才能字母数字汉字组合按照词典分成一个词语呢？

发布时间：2013-07-03 14:07 t By hightman

其实SCWS内部是允许最多2个非中文字符夹杂中文成词的，超过2个的就无效了。比如”Q币“，”T恤“这种是支持的。像你这么长的编号支持通用性不强。。

6.怎样才能字母数字汉字组合按照词典分成一个词语呢？

发布时间：2013-07-02 17:07 t By shuyinglee

我在字典里面添加了 "HYC888仪表" 这个词，但是非词的结果却是 "HYC" "888" "仪表" 这三个词语；确认词典中没有这三个单独的词语；我的应用中这样的词语很多很多，希望能够整词匹配。我看了前面的一个帖子，说要修改...

7.RE: 怎样才能字母数字汉字组合按照词典分成一个词语呢？

更新时间：2013-07-03 11:07 t By shuyinglee

昨天弄了一晚上，因为我是写php的对C语言不熟系，研究了一下源代码，最终功夫不负有心人，成功的避过了中英文混合，使用字典中的词语分词，我用的是 scws-1.2.1.tar.bz2 这个版本，因为不能发附件，如果大家需要联系我： Ema...

8.英文与数字组合词分词错误

发布时间：2014-04-20 16:04 t By tenjin

scws分词时出现这样的情况，英文字母与数字组合分词时，若词的前面或后面有标点符号，则英文字母和数字将会被拆分开，不知道是什么原因？有没有解决的办法？ ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...

9.RE: SCWS 能否添加 “中文＋英文”和“中文＋数字”自定义词

发布时间：2012-08-30 20:08 t By xiaofeng

...uote='hightman' pid='1078' dateline='1346301119'] 支持是支持的，但数字字母最多只支持2位。你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。像 Q币 QQ空间　这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 ...

10.RE: 英文数字组合字符串分词问题

更新时间：2014-05-14 10:05 t By hpxl

sdk/php/app/demo.ini配置 [php] [id] type = id [productsName] type = title tokenizer = scwsSplit [/php] 自定义字母、数字分词类 sdk/php/lib/XSTokenizerScwsSplit.php [php]

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索