搜索

大约有 20 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1936秒)

1.英文数字组合词分词错误

发布时间:2014-04-20 16:04 t By tenjin

scws分词时出现这样的情况,英文字母与数字组合分词时,若词的前面或后面有标点符号,则英文字母和数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...

2.RE: 英文数字组合词分词错误

发布时间:2014-04-23 10:04 t By tenjin

C++版本和官网演示分词不一致。 ".mp3",在线演示切分成". mp3",C++版本 1.22切分为". mp 3";

3.RE: 英文数字组合字符串分词问题

发布时间:2014-05-14 11:05 t By soarb

[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库? 像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗?

4.SCWS 能否添加 “中文+英文”和“中文+数字”自定义词

更新时间:2012-08-27 20:08 t By xiaofeng

hightman,你好! 因为项目需要从下述字符串中,分别提取:[color=#006400]斯巴鲁WRX[/color],[color=#006400]斯巴鲁200[/color] 这2个词 “斯巴鲁WRX和斯巴鲁200的区别,保养费用如何” 我试用了下面2种方法,均没有达到想要的结果,希望hi...

5.分词 对于 词库 里有宝马x6 分词 为宝马和马x6 分词有问题 词库 里 只能添加 宝马 不能宝马x6 (中文 英文数字在一起 存在分词问题)

发布时间:2013-07-04 16:07 t By louyefeiwu

分词 对于 词库 里有宝马x6 分词 为宝马和马x6 分词有问题 词库 里 只能添加 宝马 不能宝马x6 (中文 英文数字在一起 存在分词问题) #解析后的 QUERY 语句:Xapian::Query((奥迪a6:(pos=1) SYNONYM (奥迪:(pos=89) AND 迪A6:(pos=90))))

6.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj sc...

7.发现有几种情况会导致分词不准确?

发布时间:2011-09-15 14:09 t By 逆雪寒

scws分词不正确的情况 1、中文夹杂连续两个以上英文数字(例如:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个...

8.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的结果是“ABC" "支持“ ”开源“, 而不...

9.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词...

10.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

12
  • 时间不限
  • 按相关性排序