搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

71.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎，小问题优化改进)

发布时间：2013-12-11 15:12 t By hightman

...度的提高搜索速度和用户体验。高性能：后端是采用 C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。简单易用：...

72.xunsearch-1.4.1 (xapian+scws 开源搜索引擎，修正搜索进程死锁)

发布时间：2013-02-21 11:02 t By hightman

...的提高搜索速度和用户体验。 [b]高性能：[/b]后端是采用 C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易...

73.scws-1.0.0 正式发布 (含php扩展及2文本词典)

更新时间：2010-01-29 13:01 t By hightman

...是中文分词的攻关难点。本分词法并无太多创新成分，采用的是自己采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一...

74.xunsearch-1.4.0 (基于xapian+scws的开源中文搜索，大幅改进性能及稳定性)

发布时间：2013-01-22 12:01 t By hightman

...的提高搜索速度和用户体验。 [b]高性能：[/b]后端是采用 C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易...

75.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

更新时间：2010-11-13 10:11 t By snakeyasin

... 消除 php5.3 的警告信息, 重写 phpext/ 中的部分zend API, 统一采用 zend_parse_parameters() -- [b]scws-1.1.2 发布于 2010-5-9[/b] 这是一个小bug修正版，修正在非内存模式词库时会导致人名识别失败的bug. -- [b]scws-1.1.1 发布于 2010-3-4[/b] 这是...

76.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

发布时间：2012-11-06 22:11 t By umland

... 消除 php5.3 的警告信息, 重写 phpext/ 中的部分zend API, 统一采用 zend_parse_parameters() -- [b]scws-1.1.2 发布于 2010-5-9[/b] 这是一个小bug修正版，修正在非内存模式词库时会导致人名识别失败的bug. -- [b]scws-1.1.1 发布于 2010-3-4[/b] 这是...

77.搜索日志管理

... 多个词之间用半角的逗号分隔，词汇中包含空格则注意采用引号包围。用法举例： ~~~ # 在 demo 项目中添加搜索词 word 次数为 1 util/Logger.php --put=word demo # 在 demo 项目中添加搜索词 word 次数为 123，添加搜索词 "word1 word2" 次数为 ...

78.Xunsearch SDK for PHP

Xunsearch SDK for PHP $Id$ 这是采用 PHP 语言编写的 xunsearch 开发包，在此基础上开发您自己的全文检索。在此简要介绍以下几个文件： - lib/XS.php 入口文件，所有搜索功能必须包含此文件 - lib/XS.class.p...

79.我对切词尝试做了下功能修改

更新时间：2013-12-27 20:12 t By linqingtao

...然后测试了一下可以达到效果了 1）、英文切分的长度采用了宏 2）、切分后可以返回所有字典中存在的词但是不知道会不会有别的问题。。。没法上传附件，贴一下代码吧 // hightman.070902: multi segment // step1: split to ...

80.关于 SCWS 简易中文分词系统

更新时间：2013-01-10 16:01 t By hightman

...是中文分词的攻关难点。本分词法并无太多创新成分，采用的是自己采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索