搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写，索引设计基于著名而悠久的 [Xapian][1]，分词采用自主研发同样也是开源的 [SCWS分词][2]，两者完美结合，理论上单个搜索库支持 40 亿条记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

2.自定义分词器

自定义分词器 `Xunsearch` 默认内置了功能强大的 [SCWS][1] 分词系统，也附加提供了一些简单常见的分词规则，但考虑到用户的个性需求，特意提供了自定义分词器的功能。 > note: 自定义分词器存在一个缺陷，它不支持存...

3.开发规范

...，请自行编写代码和定义时不要也以 `XS` 开头。自定义分词 --------- Xunsearch 在项目配置时支持针对某些字段自定义分词。每个自定义分词功能单独使用一个文件名，命名为 `XSTokenizerXyz.class.php`，其中 `Xyz` 是您自己的分词名称...

4.自定义 SCWS 词库

...定义 SCWS 词库如之前所说，我们所有的索引分词器默认为 scws，这也是我们开发的开源分词系统，内置的词库基本上能满足绝大多数应用。但总有例外，这也就是即将说的如何自定义词库。全局自定义词库 --------...

5.构建搜索语句

...部默认采用 `AND` 规则，也就是说要求列出来的关键词（分词之后）全部匹配，如果您通过 [XSSearch::setFuzzy] 开启了模糊匹配，那么相当于采用 `OR` 规则，只要其中一个关键词匹配即可。刚刚说的这种搜索的是索引数据库的“混...

6.最新的主要变动

...化代码兼容性 - 增加用户案例文档：USERCASE - 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSSearch:...

7.编写第一个配置文件

...为了按版块检索，我们必须对它进行索引，而它也不需要分词，所以分词器用内置的 `full`。 - `tid` 内容也是数字的主题ID，我们暂不考虑按主题搜索，所以不需要索引，也没有排序等要求，所以只要当作普通字段存储下来即可...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !