... 查询得到的每行数据就会被转换为关联数组,并作为一条完整的文档数据提交到索引库中。 查询语句中允许使用表连接和 LIMIT, OFFSET 等行为,即便数据量很大,内部会作出相应优化。 > info: 如果您在数据源中指定了 `table`,那...
...索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持 PHP 语言。API 简单清晰,...
...前已兼容 cli/scws_gen_dict 所用的文本词库) ** 1) 每行一条记录,以 # 或 分号开头的相当于注释,忽略跳过。 2) 每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表...
...区间检索或排序需求不建议使用 - id 主键型,确保每条数据具备唯一值,是索引更新和删除的凭据,每个搜索项目必须有且仅有一个 id 字段,该字段的值不区分大小写 - title 标题型,标题或名称字段,至多有一个该类型的...
...前已兼容 cli/scws_gen_dict 所用的文本词库) ** 1) 每行一条记录,以 # 或 分号开头的相当于注释,忽略跳过。 2) 每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表...
...调用 [XSSearch::setQuery] 设定它 * 根据需要设置附加的查询条件:通过 [XSSearch::addWeight] 干扰排名权重, 通过 [XSSearch::addRange] 添加字段搜索区间或范围, 通过 [XSSearch::setFuzzy] 开启模糊匹配,以获取更多搜索结果 * 进行必...
...前已兼容 cli/scws_gen_dict 所用的文本词库) ** 1) 每行一条记录,以 # 或 分号开头的相当于注释,忽略跳过。 2) 每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表...
...不仅占用了比较多的内存,而且也需要一定的时间(35万条数据约需要0.3~0.5秒左右)。 若此前 scws 句柄已经加载过词典,则此调用会先释放已经加载的词典。 [b]返回值:[/b]无 [b]错误:[/b] 如果加载失败,scws_t 结构中的 d 元素...
...heck.php 命令行运行,用于检测您的 PHP 环境是否符合运行条件 - util/IniWizzaard.php 命令行运行,用于帮助您编写 xunsearch 项目配置文件 - util/Quest.php 命令行运行,搜索测试工具 - util/Indexer.php 命令行运行,索引...