1)索引速度的慢其实是相对的,在一个大库里更新比较慢。但你可以变通分库,把最近的做成一个小库用以实时更新,再定期合并索引。 2)1亿条肯定要分库为佳,建议2000万左右一个库。可以联库索引,库也可是远...
php.ini中的 extension_dir="./" 改成空的
TF/IDF值不会导致用不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临...
因为搜索结果很多,而php中search函数是通过getRespond来接收数据的,不可以思议的是,结果不是一次发送的,而是一个字段一个字段分开发送,这引发了大量的send操作,当然应用层做了缓冲1024字节,每次超过1024字节时候才发送...
[quote='yz1675052' pid='7072' dateline='1318339463'] 想问下,用VC6怎么调用SCWS呢?或者是易语言调用的方法呢? 有没有详细的API调用方法的? [/quote] 目前没有直接提供相应的DLL模块。但提供了源码,你可以直接把 libscws/ 目录作为您的...
...索引库阿. 我这里只是在数据有更新时才会执行性一次 --rebuild索引, 都是手工来做的. 我们现在的处理方式: 凌晨4:00 固定的去重起xunsearch, 如果没有做, 凌晨4:00多就挂掉。很奇怪,每天都这样。。 [/quote] 今天发现这样重启...
...,请教一个问题 我在php中如何引用XS.php这个文件呢? require的话会提示报错 我是安装在默认目录 /usr/local/xunsearch的 但是我使用 require '/usr/local/sdk/php/lib/XS.php'; 会提示require() [function.require]: Failed opening required '/usr/local/sdk/php/l...
最简单的道理,在全文检索中由词"token"反向查询文档“doc", 所以能不能找到的本质在于是否建立了 token-->doc 的关联索引;而用启输入的 query 也一样是拆分成 token去检索。 很多人问为什么”梨子“可以检索到,但”梨“检索...
[quote='hightman' pid='251' dateline='1322149925'] 不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文...