搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

21.自定义词库怎么控制（字母+数字）组合的个数

发布时间：2012-08-27 16:08 t By kill-all999

我目前使用自定义词库实现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...

22.RE: 如何让分词不把“1000元”分成两个词？

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

23.RE: 发现有几种情况会导致分词不准确？

发布时间：2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的，当数字、字母连续3个以上时就不作为混杂元素了，会将它们切开。起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

24.第四版遇到（）和中英文混合分词的问题。

发布时间：2008-01-03 11:01 t By kts2tt

富贵鸟(Y1W) 类似这样的名称分词的结果却是富贵鸟(Y1W) 最关键的 Y1W 没有被分出来。而且六灯夜视D502 这样的名称也只能分出中文，英文和数字没有被分出来，是为什么？请教高手。我用的是SCWS 扩展 PHP 5.2.x 版二...

25.一个疑问……

发布时间：2007-11-28 22:11 t By 逍遥小妖

...搜索引擎结合…… 现在目前已经成功用SCWS替换其原本的分词代码。但是却发现一个问题，就是SCWS的适用范围似乎特别的窄…… 对于一个页面来说，通常含有数字、英文、英文标点、中文标点、中文等文字要素（可阅读部分...

26.自定义字典的问题

发布时间：2011-03-14 22:03 t By zfzeng

...库，(测试用的，只放2个词在词库)，然后对这句话进行分词“我爱喝南瓜汤，番茄汤”进行分词，希望得到结果我爱喝（未被分词）南瓜汤（分词OK），番茄汤（分词OK）可是结果什么都没显示。 $so->set_dict("d:\test.x...

27.三个问题需要求教

发布时间：2011-01-17 11:01 t By nftw

...一体。有没有办法？ 3， GB2312编码中的繁体字不能正常分词，如“家電節能”，会分为　“家＋電＋節＋能”。总之 scws用着很顺手，感谢hightman.

28.scws-1.1.6 发布

更新时间：2011-04-20 15:04 t By hightman

...词之间时视为同一词而不再强行切开，此时如果激活复合分词的 DUALITY 选项，则仍能将符号切开作为复合词。 4.修正浮点数的识别规则，避免将IPv4地址识别为2个小数的尴尬，比如 192.168.1.1 以前会被切成 192.168 和1.1 2个数字，现...

29.图片搜索的一些疑问

更新时间：2014-02-16 17:02 t By Mr.

...相等的数据，然后根据hash_196字段按匹配度排序我对xlen分词器不是很了解这个排序mysql可以实现但是mysql分割后的位置不是固定的 project.name = hash project.default_charset = UTF-8 server.index = /dev/shm/xs-indexd.sock server.search = /dev/shm/xs-se...

30.英文可以自定义词性吗？

发布时间：2013-08-30 05:08 t By mynoname

通常英文是不需要分词的，但很多时候词性是需要的，比如nike，dior这类品牌英文。目前默认词性都是en，有什么办法可否自定义词典来改变他的词性。还有个问题，就是纯数字的词性为什么是en呢，不是m? 望赐教。

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索