搜索

大约有 20 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.3902秒)

1.RE: 遇到一个分词错误的问题

发布时间:2014-02-11 11:02 t By robinjia

...。 我的理解是,这是因为程序里并没有判断武松已经是一个词了,而当它看到武这个时,于是看到这是个前缀,而在武这个后面至多可以跟着两个,所以将杀也一起加进去了。而后面的词性语法规则对这句里的词性无法...

2.求助scws分词bug

发布时间:2014-04-22 15:04 t By zhoutian

在使用scws分词的时候,如果输入40多个“卡”,最后分出来的那个词少了一个节,就是说在utf8下原本3节的一个“卡”,变成了两个节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???

3.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个

发布时间:2010-08-22 00:08 t By hightman

返回的时候根据长度排除啊,GBK的话单就是2节,很好判断啊,UTF-8三节,但也能判断出是不是一个单个的汉

4.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个

发布时间:2010-09-10 14:09 t By johnbaby

[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单就是2节,很好判断啊,UTF-8三节,但也能判断出是不是一个单个的汉 [/quote] 原来如此。明白了。非常感谢!

5.RE: 遇到一个分词错误的问题

更新时间:2014-02-13 10:02 t By robinjia

...是个姓氏 if (wmap[i][i]->flag & SCWS_ZFLAG_WHEAD) //是一个词的第一个,跳过 continue; if (i > 0) { rule_item_t r2 = scws_rule_get(s->r, txt + zmap[i - 1].start, zmap[i - 1].end - zmap[i - 1].start); ...

6.请问一下,怎么才能让词典里有的四成语分割正确?

发布时间:2013-07-12 17:07 t By zhuaijay

我想请教一下,我用scws分割了一篇文章,里面把一些词典库里收录了的四成语分割成一个一个的了,这是为什么?有没有什么设置方法能让它被正确地分割出来的?谢谢了~

7.libscws 段错误的 bug 修正

发布时间:2007-07-05 09:07 t By hightman

scws.c 中,由于取词时使用一个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 ,如全部连续的双节数母.超过 255 后 这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

8.RE: xunsearch是否支持一元分词

发布时间:2011-12-08 11:12 t By hightman

如果你了解scws就会知道它其实对散也是自动二元处理。 你所谓的一元是一个一个词?你也可以拓展 XSTokenizer 自己实现分词

9.XSTokenizerScws一个使用问题

发布时间:2013-01-29 10:01 t By tisswb

是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...

10.RE: 对医院的分词不太理想

更新时间:2010-09-07 18:09 t By hightman

...词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/do...

12
  • 时间不限
  • 按相关性排序