带阿拉伯数字的节日 如”51劳动节“ 只能分出”劳动节“,只要数字在前面就识别不出来,同时也很奇怪如果这些数字大于百位数 如”2014劳动节“ 就能分出2014和劳动节,最终想要”61儿童节“=61+儿童节 的效果,大神求助。。...
其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。
我在字典里面添加了 "HYC888仪表" 这个词,但是非词的结果却是 "HYC" "888" "仪表" 这三个词语; 确认词典中没有这三个单独的词语; 我的应用中这样的词语很多很多,希望能够整词匹配。 我看了 前面的一个帖子,说要修改...
昨天弄了一晚上, 因为我是写php的对C语言不熟系,研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Ema...
由于分词规则开头会先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...
1, 当英文或数字与汉字链接时,词性会被视为un。如"LG集团",LG与集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入...
我这个是简单的改动,就是注释掉了一段代码 [code] diff -ur scws-1.2.1/libscws/scws.c scws-1.2.1.changed/libscws/scws.c --- scws-1.2.1/libscws/scws.c 2013-01-11 10:39:28.000000000 +0800 +++ scws-1.2.1.changed/libscws/scws.c 2013-07-03 10:38:49.409846632 +0800 @@ -60,6 +60,9 @@ s->...