搜索

大约有 28 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0055秒)

21.hm老大,英文词典的问题

发布时间:2012-03-22 13:03 t By wodeln

...这样的话,大家一起提供英文的词典,是不是就可以解决中英文混合分词了??

22.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

发布时间:2013-07-03 16:07 t By hightman

这个改法我感觉不怎么好,没有普遍性。这样会导致中英文合的出问题。。。

23.怎么去掉英文数字超过2个会被切分的限制

发布时间:2013-12-26 14:12 t By linqingtao

hi,hightman, 你好,我现在用切词,发现中英文混合的英文超过2个就被切分了,要怎么才能取消这个限制呢?比如有个词是 "某某大学MBA", 不要被切分成两个词,希望能得到解答。

24.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

25.请问一下,xdb与txt词库那个读取效率更高

发布时间:2013-06-29 21:06 t By 阿弟2013

...库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效...

26.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...s,使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的结果是“ABC" "支持“ ”开源“, 而...

27.修正utf-8版make_xdb_file.php的错误

发布时间:2011-06-09 09:06 t By itlong

...tionary 到80行,这是不参对utf-8字符处理的,不能对中文(中英混合)字符进行mb_substr($word, 0, $len)切分,[u]mb_substr($word, 0, $len)切分中文会是乱码的。[/u] 所以要人为添加字符串处理涵数,针对utf-8。 [php] function msubstr($str, $start=0,...

28.[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2013-07-11 21:07 t By hightman

...ws/download.php[/url] -- [b]scws-1.2.2 发布于 2013-7-11[/b] 1) 改进中英夹杂的长词复合分法,比如 "奥迪A6/奥迪/A6" 2) 修正 pscws23 演示文件的一些写法与新版 PHP 不兼容 3) 修正一些 configure 检测错误 [b]scws-1.2.1 发布于 2013-1-15[/b] 1) 将源...

123
  • 时间不限
  • 按相关性排序