搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 遇到一个分词错误的问题

发布时间：2014-02-11 11:02 t By robinjia

...。我的理解是，这是因为程序里并没有判断武松已经是一个词了，而当它看到武这个字时，于是看到这是个前缀，而在武这个字后面至多可以跟着两个字，所以将杀也一起加进去了。而后面的词性语法规则对这句里的词性无法...

2.求助scws分词bug

发布时间：2014-04-22 15:04 t By zhoutian

在使用scws分词的时候，如果输入40多个“卡”字，最后分出来的那个词少了一个字节，就是说在utf8下原本3字节的一个“卡”字，变成了两个字节，形成了一个乱码。在线测试也会出现这种情况，大家怎么解决啊？？？

3.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个字”

发布时间：2010-08-22 00:08 t By hightman

返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字

4.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个字”

发布时间：2010-09-10 14:09 t By johnbaby

[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢！

5.RE: 遇到一个分词错误的问题

更新时间：2014-02-13 10:02 t By robinjia

...是个姓氏 if (wmap[i][i]->flag & SCWS_ZFLAG_WHEAD) //是一个词的第一个字，跳过 continue; if (i > 0) { rule_item_t r2 = scws_rule_get(s->r, txt + zmap[i - 1].start, zmap[i - 1].end - zmap[i - 1].start); ...

6.请问一下，怎么才能让词典里有的四字成语分割正确？

发布时间：2013-07-12 17:07 t By zhuaijay

我想请教一下，我用scws分割了一篇文章，里面把一些词典库里收录了的四字成语分割成一个字一个字的了，这是为什么？有没有什么设置方法能让它被正确地分割出来的？谢谢了~

7.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

在 scws.c 中，由于取词时使用一个 unsigned char 来记录分词的长度，存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

8.RE: xunsearch是否支持一元分词

发布时间：2011-12-08 11:12 t By hightman

如果你了解scws就会知道它其实对散字也是自动二元处理。你所谓的一元是一个字一个词？你也可以拓展 XSTokenizer 自己实现分词

是这样的，我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...

10.RE: 对医院的分词不太理想

更新时间：2010-09-07 18:09 t By hightman

...词叫“民医院”！！建议删除该词重新生成词典或，写一个附加词典标记为删除。内容如下，保存为名字 del.txt，然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/do...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索