搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.RE: 遇到一个分词错误的问题

更新时间：2014-02-13 10:02 t By robinjia

...是个姓氏 if (wmap[i][i]->flag & SCWS_ZFLAG_WHEAD) //是一个词的第一个字，跳过 continue; if (i > 0) { rule_item_t r2 = scws_rule_get(s->r, txt + zmap[i - 1].start, zmap[i - 1].end - zmap[i - 1].start); ...

12.请教一个新手问题

发布时间：2014-02-19 00:02 t By limw

中国国民党荣誉主席连战及随访结果分词就把“连战及”分到一起了。请问有解决办法嘛？似乎两个字的名字，容易和后面的字分到一起。我在论坛中看到了“武松杀”的帖子，但是貌似没有解决办法？谢谢。

13.转义过的HTML搜索问题

发布时间：2014-07-08 14:07 t By stalvan

我有一个字段搜索时发现如果内容为

我就是这个商品。我很好搜索。

这种的话用我很好搜索作为搜索字，会搜索不到结果。如果内容为我就是这个商品。我很好搜索。这种的话用我很好搜索作为搜索字，可以搜...

是这样的，我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...

15.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

在 scws.c 中，由于取词时使用一个 unsigned char 来记录分词的长度，存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

16.RE: xunsearch是否支持一元分词

发布时间：2011-12-08 11:12 t By hightman

如果你了解scws就会知道它其实对散字也是自动二元处理。你所谓的一元是一个字一个词？你也可以拓展 XSTokenizer 自己实现分词

17.RE: “枪王之王”分词不是很满意！

发布时间：2010-09-13 01:09 t By hightman

枪王你的作法是对的，“王之王”是自动识别人名的原因。山楂树之恋，想分成”山楂树“+”树之恋“目前是没有办法做到了～毕竟复合分也没办法把一个字拆到2个词里。

18.规则集BUG

更新时间：2014-08-22 17:08 t By shakeng

添加一个规则集如下： [b]:type = prefix :line = yes :tf = 3.5 :idf = 2.0 :attr = nz :include = chnum1,chnum2 :znum = 1,2,3 百分百分之[/b] 分词的时候出现以下问题：词：百分六识别正确词：百分六十识别失败，只能识别出”百分“...

19.关于词典中的词性标注

发布时间：2007-06-09 12:06 t By hightman

...附录），在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务，希望本着有一纠一的原则。如有汇报，请遵守格式为：词原attr 正确attr -------------------------- XXX - - （表示错误或不需要的词，应...

20.试使用 libscws 做了2个小东西

发布时间：2007-06-11 16:06 t By hightman

...php]http://www.dot66.net/search2.php[/url] 2. 自动分类，这个是一个智能学习的分类系统，很粗糙。 [url=http://hi.twomice.net/a.php]http://hi.twomice.net/a.php[/url]

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索