杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...
[quote='hightman' pid='8211' dateline='1402974659'] xunsearch/bin/xapian-check xapian-inspect 这几个工具可以检查一下数据库,看看是不是坏了。 还有你可以试试用命令行的 util/Quest.php --db=db_a,db 这样强制指定DB库来测试一下呢? [/quote] ...
[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多,很容易引起服务器假死,linux服务器! 请问老大有没有加载到内容进行调用的方法? [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set...
...i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); // modified by hightman[hr] [root@estar scws-1.1.5]# /usr/local/bin/scws -A -d "/usr/local/scws/etc/dict.xdb" "LG集团5.3%" LG/en 集团/n 5.3/en %/un +--[scws(scws-cli/1.1.5)]----------+ | TextLen: 10 | | Prepare: 0....
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
配置文件作了修改后,测试代码不一定重新生成,但索引必须重建。 从你发的命令看,本身没有任何问题,你说的能成功,第一个不行是什么意思?最好能搭配发出你的INI配置和数据库内的实际内容。
xs-import 才是真正同步导入的进程,不要杀死。写入索引时占用CPU确实很高,这是正常的。 PHP 脚本上显示的完成只是将你的数据全部保存到缓存区,并不是真正写入到索引数据库中。
你好Hightman: 我是一名大学生,对中文分词很感兴趣。 在网上看了很多关于中文分词的课件和论文。 词的粗分有几种: 最大匹配法 最大概率法 最短路径法 未登录词识别方法 等等 我下PSCWS4,学习了好久算法,由于个人...
[quote='hightman' pid='121' dateline='1319514186'] Indexer.php 你可以在 sql 语句中指定 offset 和 limit --sql="select * from cdb_posts limit 999999999999 offset 5000000" 类似这样,OFFSET 不能单用必须配合 limit [/quote] 呵呵 原来如此 非常感谢,数据已经导...