搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.请注意关于tokenizer 分词器

发布时间：2012-10-24 11:10 t By a114708367

xlen([2]) 表示根据指定参数长度分段取词，如 ABCDEF => AB + CD + EF 用的朋友一定要把中括号去掉变成xlen(2) 否则报错

2.RE: 请注意关于tokenizer 分词器

发布时间：2012-10-25 13:10 t By hightman

这肯定的啊，中括号是表示这个参数可选，默认为2……

[color=#FF0000]demo.ini[/color] ----------------------------- project.name = demo project.default_charset = utf-8 server.index = 8383 server.search = 8384 [pid] type = id [subject] type = title [message] type = body [chrono] type = numeric

4.配置文件的困惑

发布时间：2012-03-16 17:03 t By 张十三

tokenizer 分词器默认为 default 采用内置的功能强大的 scws 分词，适合绝大多数字符串字段。也可以指定自定义分词器，格式为 name 或 name(arg) 两种形式，其中 name 是分词器名称，arg 则是传递给分词器构造函数的参数。自定义分词...

5.split无效

更新时间：2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

6.split无效

更新时间：2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

7.RE: small50,big161这种词汇搜索不到

发布时间：2013-06-18 11:06 t By hightman

@FIXME: 先记录一下，这是因为你既是自定义分词器又指定了 non_bool 参与权重计算。那么 SDK 端先按自定义分词器拆分重新组合成查询语句，发送到 xapian 解析器时由于不是 boolean prefix，因此它又会调用内部切词法再次切割。简...

8.RE: 塔里木河的分词问题

发布时间：2013-06-09 13:06 t By hightman

因为“塔里木河”已经是个完整的词了，再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。

9.RE: 塔里木河的分词问题

发布时间：2013-06-09 13:06 t By hightman

因为“塔里木河”已经是个完整的词了，再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。

10.RE: addIndex addTerm 区别

发布时间：2013-03-31 13:03 t By hightman

addIndex 为根据分词器调用分词分为多个term 。addTerm则不分词直接加term

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索