搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

21.自定义词库怎么控制（字母+数字）组合的个数

发布时间：2012-08-27 16:08 t By kill-all999

...现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 ...

22.RE: 如何让分词不把“1000元”分成两个词？

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

23.RE: 发现有几种情况会导致分词不准确？

发布时间：2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的，当数字、字母连续3个以上时就不作为混杂元素了，会将它们切开。起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

24.第四版遇到（）和中英文混合分词的问题。

发布时间：2008-01-03 11:01 t By kts2tt

... 六灯夜视D502 这样的名称也只能分出中文，英文和数字没有被分出来，是为什么？请教高手。我用的是SCWS 扩展 PHP 5.2.x 版二进制文件！

25.一个疑问……

发布时间：2007-11-28 22:11 t By 逍遥小妖

...用范围似乎特别的窄…… 对于一个页面来说，通常含有数字、英文、英文标点、中文标点、中文等文字要素（可阅读部分，HTML已过滤），视情况而定，搜索引擎还有可能抓出含有乱码的片段。但是SCWS分词时似乎要求字符串中...

26.自定义字典的问题

发布时间：2011-03-14 22:03 t By zfzeng

...，我定义了个词库，可是一用这个词库，就分不出来，数字和英文除外。比如我定义“南瓜汤”，“番茄汤”作为一个词库，(测试用的，只放2个词在词库)，然后对这句话进行分词“我爱喝南瓜汤，番茄汤”进行分词，希...

27.三个问题需要求教

发布时间：2011-01-17 11:01 t By nftw

1，当英文或数字与汉字链接时，词性会被视为un。如"LG集团"，LG与集团紧连着，这种情况下，我希望把LG也视为en。能不能通过修改rules改变呢？因为我不是太理解un指的是什么，好像助词'的'、标点符号等都被视为un。我在插入...

28.scws-1.1.6 发布

更新时间：2011-04-20 15:04 t By hightman

...词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比，如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则，当出现在字母单词之间时视为同一词而不再强行切开，此时...

29.图片搜索的一些疑问

更新时间：2014-02-16 17:02 t By Mr.

...= none cutlen = 0 weight = 0 phrase = no non_bool = no [hash_64];纯数字的图片hash值长度是固定的64位整数非唯一但相同的值比较多 type = string;应该不能用numeric类型吧？ index = self tokenizer = none;要实现匹配一个64位数值是完全相等的不...

30.英文可以自定义词性吗？

发布时间：2013-08-30 05:08 t By mynoname

通常英文是不需要分词的，但很多时候词性是需要的，比如nike，dior这类品牌英文。目前默认词性都是en，有什么办法可否自定义词典来改变他的词性。还有个问题，就是纯数字的词性为什么是en呢，不是m? 望赐教。

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索