MACOS比较 麻烦,因为正文UTF-8,目录是GBK,所以无法协同,我在MACOS用ICHM看好多文件时也出现过这个问题 。 下次把文件 统一用GBK编码可能 可以解决
安装使用了下,感觉有些词的相关搜索词只能从简单词找到更复杂的词: 比如 mi 的关联词是: mi2 mi1 mi2a mi1s mi2s mi-one 而 mi2 的关联词是: mi2s mi2a 没有mi 但是有些词就可以 从复杂的词 找到关联的简单词 比如手机...
我实现了, $uid = $_GET['uid']; $tag = $_GET['tag']; $xs = new XS('demo'); $search = $xs->search; $search->setCharset('UTF-8'); $search->setQuery('uid:' . $uid); $docs = $search->search(); $terms = $search->getExpandedQuery...
在使用xunsearch的时候,因为业务需要复杂一点的设计.这样就导致查询语句也会复制一点. Bug重现: $search->setSort('addtime',false); $docs=$search->addRange('addtime',$from,null)->search(); $count=$search->getLastCount(); 在相关时间区间里面搜索再以...
A、/util/Indexer.php --rebuild --source --sql="SELECT" --project=demo B、$index->beginRebuild(); foreach ($data as $k => $v) { $doc = new XSDocument; $doc->setFields($v); $index->update($doc); } $index->endReb...
我使用scws的C版本提供的接口对省份、地市信息进行分词,发现分词的结果有时不是希望达到的结果。例如: 1 洛阳市廛河华林水席村 希望的结果为:洛阳市 廛 河 华林 水 席 村(词典中有洛阳市,市廛,河华,华林) 实...
你好,新设计的字段 [pid] type = id index = none tokenizer = none [uid] type = string tokenizer = full index = self weight = 5 ...
是的,牵涉很多。 另外一个想法是在xunsearch中支持python或 lua等script,感觉适应特殊要求的改动会少点(超字段数方案由脚本方案处理,觉得处理好255这个特殊vno,就可以突破。)。还有就是对xapian的扩展有了可能。在贵公司提供商...
原文如下: [quote]1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全...