...是个姓氏 if (wmap[i][i]->flag & SCWS_ZFLAG_WHEAD) //是一个词的第一个字,跳过 continue; if (i > 0) { rule_item_t r2 = scws_rule_get(s->r, txt + zmap[i - 1].start, zmap[i - 1].end - zmap[i - 1].start); ...
中国国民党荣誉主席连战及随访 结果分词就把“连战及”分到一起了。 请问有解决办法嘛? 似乎两个字的名字,容易和后面的字分到一起。 我在论坛中看到了“武松杀”的帖子,但是貌似没有解决办法? 谢谢。
我有一个字段搜索时发现如果内容为
我就是这个商品。我很好搜索。
这种的话 用 我很好搜索 作为搜索字,会搜索不到结果。 如果内容为 我就是这个商品。我很好搜索。 这种的话 用 我很好搜索 作为搜索字,可以搜...是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...
在 scws.c 中,由于取词时使用一个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...
如果你了解scws就会知道它其实对散字也是自动二元处理。 你所谓的一元是一个字一个词?你也可以拓展 XSTokenizer 自己实现分词
枪王你的作法是对的,“王之王”是自动识别人名的原因。 山楂树之恋,想分成”山楂树“+”树之恋“目前是没有办法做到了~毕竟复合分也没办法把一个字拆到2个词里。
添加一个规则集如下: [b]:type = prefix :line = yes :tf = 3.5 :idf = 2.0 :attr = nz :include = chnum1,chnum2 :znum = 1,2,3 百分 百分之[/b] 分词的时候出现以下问题: 词:百分六 识别正确 词:百分六十 识别失败,只能识别出”百分“...
...附录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则。如有汇报,请遵守格式为: 词 原attr 正确attr -------------------------- XXX - - (表示错误或不需要的词,应...
...php]http://www.dot66.net/search2.php[/url] 2. 自动分类,这个是一个智能学习的分类系统,很粗糙。 [url=http://hi.twomice.net/a.php]http://hi.twomice.net/a.php[/url]