...$scws->set_dict('dict.xdb'); $scws->set_rule('rule.ini'); $scws->set_ignore(1); $scws->set_multi(1); my $s = shift; $scws->send_text($s); while (my $r = $scws->get_result()) { foreach (@$r) { print $_->{word}, " "; } } print "\n"; [/code] [code] $perl test.pl 核心...
杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...
我真的很喜欢它!我永远感谢您简要在这个信息共享 :)
[quote='hightman' pid='8211' dateline='1402974659'] xunsearch/bin/xapian-check xapian-inspect 这几个工具可以检查一下数据库,看看是不是坏了。 还有你可以试试用命令行的 util/Quest.php --db=db_a,db 这样强制指定DB库来测试一下呢? [/quote] ...
[quote='bigxu' pid='7765' dateline='1399604448'] 总数是估算的。 条件越简单就越接近实际。 你试试百度和google,这个也是解决不了啊。 一万棵树上有多少枯叶呢? 先取出三五棵对,数算一下,再计算。这就是估算。 一万棵树上的树龄...
[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多,很容易引起服务器假死,linux服务器! 请问老大有没有加载到内容进行调用的方法? [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set...
...+--[scws(scws-cli/1.1.5)]----------+ | TextLen: 10 | | Prepare: 0.0002 (sec) | | Segment: 0.0002 (sec) | +--------------------------------+ 这个结果的话比较符合现在的需求[hr] 非常感谢您
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛