搜索

大约有 20 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1012秒)

1.英文与数字组合词分词错误

发布时间:2014-04-20 16:04 t By tenjin

scws分词时出现这样的情况,英文字母数字组合分词时,若词的前面或后面有标点符号,则英文字母数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...

2.自定义词库怎么控制(字母+数字)组合的个数

发布时间:2012-08-27 16:08 t By kill-all999

...库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容...

3.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

昨天弄了一晚上, 因为我是写php的对C语言不熟系,研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Ema...

4.RE: 英文数字组合字符串分词问题

更新时间:2014-05-14 10:05 t By hpxl

sdk/php/app/demo.ini配置 [php] [id] type = id [productsName] type = title tokenizer = scwsSplit [/php] 自定义字母数字分词类 sdk/php/lib/XSTokenizerScwsSplit.php [php]

5.RE: SCWS 能否添加 “中文+英文”和“中文+数字”自定义词

发布时间:2012-08-30 20:08 t By xiaofeng

...hightman' pid='1078' dateline='1346301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 因为...

6.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

...分词规则开头会先进行中英文粗分,那时就强行把数字字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “...

7.RE: 发现有几种情况会导致分词不准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

8.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4地址识别为2个小...

9.RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4

发布时间:2012-08-27 16:08 t By kill-all999

...库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件...

10.libscws 段错误的 bug 修正

发布时间:2007-07-05 09:07 t By hightman

...出来的词有可能超过 255 字,如全部连续的双字节数字字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL , 故加入以下红色部分判断. [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item = s->wma...

12
  • 时间不限
  • 按相关性排序