搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

111.同义词搜索

...一个单词有多种不同的形式，如：单复数、过去式和现在分词等。而它们要传送的其实是同一种涵义。因此，对于纯英文的同义词记录会自动进行词根处理。词根记录保存为大写字母 Z 开头的记录。例如：设置 `find` 是 _s...

112.最新的主要变动

...化代码兼容性 - 增加用户案例文档：USERCASE - 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSSearch:...

113.xunsearch-1.4.0 (基于xapian+scws的开源中文搜索，大幅改进性能及稳定性)

发布时间：2013-01-22 12:01 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

114.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎，小问题优化改进)

发布时间：2013-12-11 15:12 t By hightman

...代码兼容性 2. 增加用户案例文档：USERCASE 3. 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 X...

115.编写第一个配置文件

...为了按版块检索，我们必须对它进行索引，而它也不需要分词，所以分词器用内置的 `full`。 - `tid` 内容也是数字的主题ID，我们暂不考虑按主题搜索，所以不需要索引，也没有排序等要求，所以只要当作普通字段存储下来即可...

116.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

...知道xdb与txt相比，那个效率更高另外，scws对于中英文分词效果不是很好，即文中的中文分得还可以，但对于页面中的英文部分，包括email,url,host这类处理效果比较差，我们目前采用两个分析器配合使用来达到最好的效果，要...

117.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

在 scws.c 中，由于取词时使用一个 unsigned char 来记录分词的长度，存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

118.构建搜索语句

...部默认采用 `AND` 规则，也就是说要求列出来的关键词（分词之后）全部匹配，如果您通过 [XSSearch::setFuzzy] 开启了模糊匹配，那么相当于采用 `OR` 规则，只要其中一个关键词匹配即可。刚刚说的这种搜索的是索引数据库的“混...

119.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写，索引设计基于著名而悠久的 [Xapian][1]，分词采用自主研发同样也是开源的 [SCWS分词][2]，两者完美结合，理论上单个搜索库支持 40 亿条记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

120.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间：2011-09-23 13:09 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索