搜索

大约有 40 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0061秒)

21.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj sc...

22.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

发布时间:2013-07-03 16:07 t By hightman

这个改法我感觉不怎么好,没有普遍性。这样会导致中英文合的出问题。。。

23.第四版遇到()和中英文混合分词的问题。

发布时间:2008-01-03 11:01 t By kts2tt

... 而且 六灯夜视D502 这样的名称 也只能分出 中文, 英文数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二进制文件!

24.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的结果是“ABC" "支持“ ”开源“, 而不...

25.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

26.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...似乎特别的窄…… 对于一个页面来说,通常含有数字英文英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中只能有...

27.三个问题需要求教

发布时间:2011-01-17 11:01 t By nftw

1, 当英文数字与汉字链接时,词性会被视为un。如"LG集团",LG与集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入...

28.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词...

29.RE: 词典格式疑问?

发布时间:2010-12-10 15:12 t By hightman

抱歉,这里没有讲清楚,英文数字本身不需要设置会自动根据词界切割。 这里说的是那些中英混合的特殊词汇,限制了夹带的字母只能1个或2个字符。 比如:我有很多Q币,这里Q币你如果设为词,它可以被切出。 再比如:我...

30.RE: 请问一下,xdb与txt词库那个读取效率更高

发布时间:2013-06-29 22:06 t By hightman

后者是什么意思,举例说明一下吧。SCWS处理英文是按普通单词和数字的规则来做

1234
  • 时间不限
  • 按相关性排序