...做基础工作了,持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写,功能基本实现了但发现速度太慢,比以前慢5~8倍,而准确率只比前面的第2/3版提升2个百分点,实在很不爽。 先看看演示地址吧:[url=http://www.hightma...
...tract public void connect(array $param) $param array 连接参数, 采用 parse_url 解析, 可能包含: scheme,user,pass,host,path,table,dbname ... 源码: sdk/php/util/XSDataSource.class.php#L428 (显示) abstract public function connect($param); 连接数据库
不是既有的格式, 是一个 HashTree 结构, 对于 daemon 或长时间运作的建议在使用时指定采用内存数据模式, 会将整个词典文件加载到内存结构中去查询.
分词采用的是我们同样开源发布的 scws 见:http://www.ftphp.com/scws/ 是C版的。 此外,你所说的最大颗粒分词是指最长匹配吗?分词在 scws/xunsearch 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “...
为确保服务器性能,采用空闲时写入。但不至于1-2小时,是不是有其它情况。可以尝试: util/Indexer.php --flush
搜索为了效率,计数是采用概率估算的,没有必要获取准确。 如实在有必要,可以在调用 search() 方法之前构造一个明显很大的 setLimit() 参数去调用
... 消除 php5.3 的警告信息, 重写 phpext/ 中的部分zend API, 统一采用 zend_parse_parameters() 下载至 http://www.ftphp.com/scws/download.php
...命中,就会误以为匹配概率非常高。。。 这种情况建议采用 count() 读取数据,而不要用 search() 返回的 lastCount 你的解决方案第一行可以改为,更具效率 $count=$search->addRange('addtime',$from,null)->count();
目前似乎还没有和PGSQL全文搜索的整合. 由于自身没有这方面需求(全文检索均已采用 XUNGLE 单独提供, 而不是直接借助SQL), 所以短期内也没有这个计划.