搜索

大约有 8 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.2915秒)

1.RE: SCWS 能否添加 “中文+英文”“中文+数字”自定义词

发布时间:2012-08-30 20:08 t By xiaofeng

...uote='hightman' pid='1078' dateline='1346301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 ...

2.英文与数字组合词分词错误

发布时间:2014-04-20 16:04 t By tenjin

scws分词时出现这样的情况,英文字母数字组合分词时,若词的前面或后面有标点符号,则英文字母数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...

3.RE: SCWS 能否添加 “中文+英文”“中文+数字”自定义词

发布时间:2012-08-30 12:08 t By hightman

支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。

4.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

5.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 % 3.修改连字符(-)下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时...

6.RE: 求助关于无效字符的Exception问题

发布时间:2013-09-25 16:09 t By hightman

项目名,库名必须是字母数字下划线,不能有别的字符

7.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...} } else { // fix me 这个地方是前面有字母数字的切词 // MAX_ALNUM_CUT是中英文混合的最多多少个数字字母就作为一个单独的词 // 原代码默认是2 修改为了一个宏 // 这部分处理的是开头有数字...

8.[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2013-07-11 21:07 t By hightman

...able-developer 选项的处理方式,不覆盖预设的 CFLAGS 4) 改变数字字母单独成词时的规则,当其中同时包含2个连续字母以及2个连续数字时强制拆分。例:原先单独的 iso9001 是整词,新规则切为 iso+9001 而 i9001 则保持不变仍为。这样...

  • 时间不限
  • 按相关性排序