搜索

大约有 30 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0056秒)

11.RE: 怎么去掉英文数字超过2个会被切分的限制

发布时间:2013-12-27 10:12 t By hightman

目前没办法。因为我们认为3个字母以上独立成词完全没问题了

12.RE: SCWS 能否添加 “中文+英文”和“中文+数字”自定义词

发布时间:2012-08-30 12:08 t By hightman

支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。

13.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...UM; } } else { // fix me 这个地方是前面有字母数字的切词 // MAX_ALNUM_CUT是中英文混合的最多多少个数字字母就作为一个单独的词 // 原代码默认是2 修改为了一个宏 // 这部分处理的是开头...

14.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

...分词规则开头会先进行中英文粗分,那时就强行把数字字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “...

15.RE: 求助关于无效字符的Exception问题

发布时间:2013-09-25 16:09 t By hightman

项目名,库名必须是字母数字和下划线,不能有别的字符

16.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 16:07 t By shuyinglee

我这个是简单的改动,就是注释掉了一段代码 [code] diff -ur scws-1.2.1/libscws/scws.c scws-1.2.1.changed/libscws/scws.c --- scws-1.2.1/libscws/scws.c 2013-01-11 10:39:28.000000000 +0800 +++ scws-1.2.1.changed/libscws/scws.c 2013-07-03 10:38:49.409846632 +0800 @@ -60,6 +60,9 @@ s->...

17.RE: 三个问题需要求教

更新时间:2011-01-17 16:01 t By hightman

...attr_en 即可,如果需要严格一点可以先判断一下 ch 是否为字母, 如以下: strcpy(wmap[i][i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); 2. 百分号这个暂时 scws 还没有办法处理,因为 % 号被当作普通符号粗分时就...

18.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4地址识别为2个小...

19.RE: 词典格式疑问?

发布时间:2010-12-10 15:12 t By hightman

...。 这里说的是那些中英混合的特殊词汇,限制了夹带的字母只能1个或2个字符。 比如:我有很多Q币,这里Q币你如果设为词,它可以被切出。 再比如:我有很多abc币,如果你设置了abc币为词,它仍然无法切割,会被预处理器先...

20.RE: 发现有几种情况会导致分词不准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

123
  • 时间不限
  • 按相关性排序