搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.二元分词问题

发布时间：2011-11-14 17:11 t By icebolt

...8384 [pid] type = id [subject] index = both tokenizer =xlen(2) 二元分词只能对英文生效，对中文不生效同时急于需要一元分词，主要是做黑词筛选用，因为有的时候就要搜索某些一元词，比如武器 near/2 售,但是不能实现

2.RE: 二元分词问题

发布时间：2011-11-16 11:11 t By hightman

...个 Tokenizer 类，然后根据自己需要生成 tokens 就可以了。二元分词并不是直接分成N长的若干段，而是 ABCD => AB + BC + CD 你的作法会把 ABCD => AB+CD 这样搜索 BC 就搜索不到了。。。

3.RE: 二元分词问题

发布时间：2011-11-15 10:11 t By icebolt

已经实现了一元分词了，不过一元分词以后不能用near之类的。还想问一下，我现在想用自定义的分词库，从哪里配置

以前的二元分词只支持英文，最后找到问题 public function getTokens($value, XSDocument $doc = null) { $terms = array(); for ($i = 0; $i < mb_strlen($value,"utf-8"); $i += $this->arg) { $terms[] = mb_substr($value, $i, $this->arg,"utf-8"); } return $terms; }...

5.RE: 二元分词问题

更新时间：2011-11-15 11:11 t By hightman

需要 NEAR 位置信息的话，目前只能用内置的 scws 分词 scws 目前不能自定义词库，你必须把词库转换成 dict.utf8.xdb 一个统一的词库放进 $prefix/etc/ 才可以

6.RE: 二元分词问题

发布时间：2011-11-14 23:11 t By hightman

xlen(2) 不是这样用的，XLEN 是每次取固定长度。。。。

7.RE: xunsearch是否支持一元分词

发布时间：2011-12-08 11:12 t By hightman

如果你了解scws就会知道它其实对散字也是自动二元处理。你所谓的一元是一个字一个词？你也可以拓展 XSTokenizer 自己实现分词

8.RE: 英文可否实现这样的搜索

发布时间：2012-04-30 22:04 t By ykjsw

知道了，要自定义分词，用二元分词应该可以把。

9.RE: 三个问题需要求教

更新时间：2011-01-18 18:01 t By nftw

呵呵，多谢hightman![hr] 再针对第三个问题问一下：如果实现二元分词但无但无单字分词的话以下组合中，是不是要去掉SCWS_MULTI_SHORT？ SCWS_MULTI_SHORT | SCWS_MULTI_DUALITY | SCWS_MULTI_ZMAIN | SCWS_MULTI_ZALL

10.RE: XSTokenizerScws的一个使用问题

发布时间：2013-01-30 14:01 t By hightman

是你自己搞错了！ “是一”本身不是词，只是因为二元结合法所以scws自动将其合成为一个词。复合分词是对原本是词的长词情况处理的，比如”中国“可以切成”中“＋”国“＋”中国“ 你的问题必须是 [code] $tk = $tokenizer->s...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索