搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1061.RE: 对医院的分词不太理想

更新时间：2010-09-07 18:09 t By hightman

杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。查到原因了，是因为词库里居然有个错误的词叫“民医院”！！建议删除该词重新生成词典或，写一个附加词典标记为删除。...

1062.RE: 索引文件还在，但是无法正常检索，只能检索最新的数据

发布时间：2014-06-17 16:06 t By fentoo

[quote='hightman' pid='8211' dateline='1402974659'] xunsearch/bin/xapian-check xapian-inspect 这几个工具可以检查一下数据库，看看是不是坏了。还有你可以试试用命令行的 util/Quest.php --db=db_a,db 这样强制指定DB库来测试一下呢？ [/quote] ...

1063.RE: xunsearch服务器一到晚上就死了，重启后又好了，我把日志贴上来

发布时间：2012-02-22 14:02 t By hightman

３个进程是正常的

1064.RE: 实时加载字典，服务器严重吃不消，有没有办法？

发布时间：2009-07-15 23:07 t By hightman

[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多，很容易引起服务器假死，linux服务器！请问老大有没有加载到内容进行调用的方法？ [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set...

...i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); // modified by hightman[hr] [root@estar scws-1.1.5]# /usr/local/bin/scws -A -d "/usr/local/scws/etc/dict.xdb" "LG集团5.3%" LG/en 集团/n 5.3/en %/un +--[scws(scws-cli/1.1.5)]----------+ | TextLen: 10 | | Prepare: 0....

1066.RE: [2012] SCWS-1.2.0 发布，BSD协议、支持自定义词库、PHP5.4

更新时间：2012-03-31 11:03 t By hightman

txt词库其实也是转换成XDB再调用的，不用担心性能。你合并词典很简单啊，把 dict.utf8.xdb 导出来嘛

1067.RE: 搜索问题 subject:测试 pid:2 "第三篇 OR pid:1" 不好使

发布时间：2011-10-21 15:10 t By hightman

配置文件作了修改后，测试代码不一定重新生成，但索引必须重建。从你发的命令看，本身没有任何问题，你说的能成功，第一个不行是什么意思？最好能搭配发出你的INI配置和数据库内的实际内容。

1068.RE: xs-import进程是干啥用的？占CPU还不少~

发布时间：2011-10-25 11:10 t By hightman

xs-import 才是真正同步导入的进程，不要杀死。写入索引时占用CPU确实很高，这是正常的。 PHP 脚本上显示的完成只是将你的数据全部保存到缓存区，并不是真正写入到索引数据库中。

1069.中文分组粗分方法

发布时间：2010-05-26 12:05 t By baobao

你好Hightman：我是一名大学生，对中文分词很感兴趣。在网上看了很多关于中文分词的课件和论文。词的粗分有几种：最大匹配法最大概率法最短路径法未登录词识别方法等等我下PSCWS4，学习了好久算法，由于个人...

1070.RE: 索引到一大半的时候出错退出，有没有办法继续？

发布时间：2011-10-26 17:10 t By tisswb

[quote='hightman' pid='121' dateline='1319514186'] Indexer.php 你可以在 sql 语句中指定 offset 和 limit --sql="select * from cdb_posts limit 999999999999 offset 5000000" 类似这样，OFFSET 不能单用必须配合 limit [/quote] 呵呵原来如此非常感谢，数据已经导...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索