搜索

大约有 50 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0993秒)

21.自定义词库怎么控制(字母+数字)组合的个数

发布时间:2012-08-27 16:08 t By kill-all999

...现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 ...

22.RE: 如何让分词不把“1000元”分成两个词?

发布时间:2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧,把数字和量词重新合成

23.RE: 发现有几种情况会导致分词不准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字、字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

24.第四版遇到()和中英文混合分词的问题。

发布时间:2008-01-03 11:01 t By kts2tt

... 六灯夜视D502 这样的名称 也只能分出 中文, 英文和数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二进制文件!

25.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...用范围似乎特别的窄…… 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中...

26.自定义字典的问题

发布时间:2011-03-14 22:03 t By zfzeng

..., 我定义了个词库,可是一用这个词库,就分不出来,数字和英文除外。 比如我定义“南瓜汤”,“番茄汤”作为一个词库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希...

27.三个问题需要求教

发布时间:2011-01-17 11:01 t By nftw

1, 当英文或数字与汉字链接时,词性会被视为un。如"LG集团",LG与集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入...

28.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时...

29.图片搜索的一些疑问

更新时间:2014-02-16 17:02 t By Mr.

...= none cutlen = 0 weight = 0 phrase = no non_bool = no [hash_64];纯数字的图片hash值 长度是固定的64位整数 非唯一 但相同的值比较多 type = string;应该不能用numeric类型吧? index = self tokenizer = none;要实现匹配一个64位数值是完全相等的 不...

30.英文可以自定义词性吗?

发布时间:2013-08-30 05:08 t By mynoname

通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。

12345
  • 时间不限
  • 按相关性排序