搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.XSTokenizer 分词接口

XSTokenizer 分词接口 [XSTokenizer] 是搜索字段的分词接口定义，整个接口只要求实现一个方法 [XSTokenizer::getTokens]，自定义分词器用于 INI 配置文件中的 `tokenizer` 选项。关于自定义分词器的详细用法剖析请阅读后面...

2.自定义分词器

自定义分词器 `Xunsearch` 默认内置了功能强大的 [SCWS][1] 分词系统，也附加提供了一些简单常见的分词规则，但考虑到用户的个性需求，特意提供了自定义分词器的功能。 > note: 自定义分词器存在一个缺陷，它不支持存...

3.在 Xunsearch 使用 SCWS

...在安装完 `Xunsearch` 后可以通过服务端内置的 scws[1] 实现分词，而不需要另外再安装 scws 的 php 扩展。从 `1.3.1` 版本起，`Xunsearch` 的 PHP-SDK 中加入 [XSTokenizerScws] 类，可通过搜索服务端执行分词功能。用法简单说明 ---------- 这...

4.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写，索引设计基于著名而悠久的 [Xapian][1]，分词采用自主研发同样也是开源的 [SCWS分词][2]，两者完美结合，理论上单个搜索库支持 40 亿条记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

5.构建搜索语句

...部默认采用 `AND` 规则，也就是说要求列出来的关键词（分词之后）全部匹配，如果您通过 [XSSearch::setFuzzy] 开启了模糊匹配，那么相当于采用 `OR` 规则，只要其中一个关键词匹配即可。刚刚说的这种搜索的是索引数据库的“混...

6.最新的主要变动

...化代码兼容性 - 增加用户案例文档：USERCASE - 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSSearch:...

7.项目配置文件详解

...，请将关联记录转换为搜索项目的新字段并设置对应的分词规则。字段设计很重要，请仔细根据需求创建，字段名建议和您的实际数据库字段一致。 1. ### 定义字段每个字段用一个区段配置来表示，中括号内的名字即为字...

8.删除文档

...引词**删除而不是该字段的值，索引词是指该字段值经过分词器处理后得到的词汇。对于索引方式为 `mixed` 的，如需删除，请把字段名设为类型为 `body` 的字段的名称。 ~~~ [php] $index->del('abc', 'subject'); // 删除字段 subject 上带有索...

9.获取搜索结果

...的部分进行飘红或加粗等高亮处理，由于其中涉及到了分词等细节处理比较麻烦。因此，我们统一提供了 [XSSearch::highlight] 方法，可以对搜索结果文档中的字段值直接进行处理，匹配关键词部分会自动套上 `em` 标签。您只要在...

10.编写第一个配置文件

...为了按版块检索，我们必须对它进行索引，而它也不需要分词，所以分词器用内置的 `full`。 - `tid` 内容也是数字的主题ID，我们暂不考虑按主题搜索，所以不需要索引，也没有排序等要求，所以只要当作普通字段存储下来即可...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索