搜索

大约有 200 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0982秒)

41.RE: 英文数字组合字符串分词问题

发布时间:2014-05-14 08:05 t By soarb

我也有同样的问题,自己字义的英文字典,但无法使用

42.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

...下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,无其它功能。针对输入的文字进行分词后然后原样输出,注意每次输入均以 "\n" 作为处理标记,即一行处理一次并返回。这样作的目的在于提高分词的效率和通...

43.index

...r 自定义字段词法分析器接口 XSTokenizerFull 内置整值分词器 XSTokenizerNone 内置空分词器 XSTokenizerScws SCWS - 分词器(与搜索服务端通讯) XSTokenizerSplit 内置的分割分词器 XSTokenizerXlen 内置的定长分词器 XSTokenize...

44.XSTokenizerScws的一个使用问题

发布时间:2013-01-29 10:01 t By tisswb

是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...

45.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj scws-1.2.1.tar.bz2 cd scws-1.2.1 patch ...

46.RE: XSTokenizerScws的一个使用问题

发布时间:2013-01-30 14:01 t By hightman

...是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getResult(...

47.RE: 分词问题

更新时间:2010-10-14 21:10 t By hightman

这里需要用到 set_multi,不过鉴于该词先单字后多字,所以达不到“云“+”计算“的效果。 使用 txt 附加词典时请显式地先指定 xdb 词典,以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [c...

48.http-scws(基于scws的http协议中文分词) 更新至2.0版

更新时间:2011-06-27 20:06 t By smallevil

...只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST方式 7.支持短词、二元、主要单字、全部单字(基于scws功能) 8.支持标点过滤(基于scws功能) 简单测试结果: AMD 64位台式机四核CPU,程...

49.RE: XSTokenizerScws的一个使用问题

发布时间:2013-02-02 13:02 t By tisswb

...是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getRe...

50.scws分词碰到连字符的词处理的问题

发布时间:2010-06-23 10:06 t By nickflyer

我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?

  • 时间不限
  • 按相关性排序