搜索

大约有 30 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1960秒)

11.RE: 怎么去掉英文数字超过2个会被切分的限制

发布时间:2013-12-27 10:12 t By hightman

目前没办法。因为我们认为3个字母以上独立成词完全没问题了

12.RE: SCWS 能否添加 “中文+英文”和“中文+数字”自定义词

发布时间:2012-08-30 12:08 t By hightman

支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。

13.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...} } else { // fix me 这个地方是前面有字母数字的切词 // MAX_ALNUM_CUT是中英文混合的最多多少个数字字母就作为一个单独的词 // 原代码默认是2 修改为了一个宏 // 这部分处理的是开头有数字...

14.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

15.RE: 求助关于无效字符的Exception问题

发布时间:2013-09-25 16:09 t By hightman

项目名,库名必须是字母数字和下划线,不能有别的字符

16.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 16:07 t By shuyinglee

我这个是简单的改动,就是注释掉了一段代码 [code] diff -ur scws-1.2.1/libscws/scws.c scws-1.2.1.changed/libscws/scws.c --- scws-1.2.1/libscws/scws.c 2013-01-11 10:39:28.000000000 +0800 +++ scws-1.2.1.changed/libscws/scws.c 2013-07-03 10:38:49.409846632 +0800 @@ -60,6 +60,9 @@ s->...

17.RE: 三个问题需要求教

更新时间:2011-01-17 16:01 t By hightman

...大概在 332 行前后增加代码,判断如果当前字符串全部是数字或并且以%结尾则视为一个数字(像处理点号0x2e一样,数字中只允许一个.)。不过这样可能对于一些情况会误处理,比如代码中的 i = 300%2; 就会被认为是 300% 了。。。...

18.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时...

19.RE: 词典格式疑问?

发布时间:2010-12-10 15:12 t By hightman

抱歉,这里没有讲清楚,英文,数字本身不需要设置会自动根据词界切割。 这里说的是那些中英混合的特殊词汇,限制了夹带的字母只能1个或2个字符。 比如:我有很多Q币,这里Q币你如果设为词,它可以被切出。 再比如:我...

20.RE: 发现有几种情况会导致分词不准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

123
  • 时间不限
  • 按相关性排序