搜索

大约有 1,288 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1001秒)

1061.RE: 对医院的分词不太理想

更新时间:2010-09-07 18:09 t By hightman

杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...

1062.RE: 索引文件还在,但是无法正常检索,只能检索最新的数据

发布时间:2014-06-17 16:06 t By fentoo

[quote='hightman' pid='8211' dateline='1402974659'] xunsearch/bin/xapian-check xapian-inspect 这几个工具可以检查一下数据库,看看是不是坏了。 还有你可以试试用命令行的 util/Quest.php --db=db_a,db 这样强制指定DB库来测试一下呢? [/quote] ...

1064.RE: 实时加载字典,服务器严重吃不消,有没有办法?

发布时间:2009-07-15 23:07 t By hightman

[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多,很容易引起服务器假死,linux服务器! 请问老大有没有加载到内容进行调用的方法? [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set...

1065.RE: 三个问题需要求教

更新时间:2011-01-21 10:01 t By nftw

...i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); // modified by hightman[hr] [root@estar scws-1.1.5]# /usr/local/bin/scws -A -d "/usr/local/scws/etc/dict.xdb" "LG集团5.3%" LG/en 集团/n 5.3/en %/un +--[scws(scws-cli/1.1.5)]----------+ | TextLen: 10 | | Prepare: 0....

1066.RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2012-03-31 11:03 t By hightman

txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛

1067.RE: 搜索问题 subject:测试 pid:2 "第三篇 OR pid:1" 不好使

发布时间:2011-10-21 15:10 t By hightman

配置文件作了修改后,测试代码不一定重新生成,但索引必须重建。 从你发的命令看,本身没有任何问题,你说的能成功,第一个不行是什么意思?最好能搭配发出你的INI配置和数据库内的实际内容。

1068.RE: xs-import进程是干啥用的?占CPU还不少~

发布时间:2011-10-25 11:10 t By hightman

xs-import 才是真正同步导入的进程,不要杀死。写入索引时占用CPU确实很高,这是正常的。 PHP 脚本上显示的完成只是将你的数据全部保存到缓存区,并不是真正写入到索引数据库中。

1069.中文分组粗分方法

发布时间:2010-05-26 12:05 t By baobao

你好Hightman: 我是一名大学生,对中文分词很感兴趣。 在网上看了很多关于中文分词的课件和论文。 词的粗分有几种: 最大匹配法 最大概率法 最短路径法 未登录词识别方法 等等 我下PSCWS4,学习了好久算法,由于个人...

1070.RE: 索引到一大半的时候出错退出,有没有办法继续?

发布时间:2011-10-26 17:10 t By tisswb

[quote='hightman' pid='121' dateline='1319514186'] Indexer.php 你可以在 sql 语句中指定 offset 和 limit --sql="select * from cdb_posts limit 999999999999 offset 5000000" 类似这样,OFFSET 不能单用必须配合 limit [/quote] 呵呵 原来如此 非常感谢,数据已经导...

  • 时间不限
  • 按相关性排序