搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.index

...r 自定义字段词法分析器接口 XSTokenizerFull 内置整值分词器 XSTokenizerNone 内置空分词器 XSTokenizerScws SCWS - 分词器(与搜索服务端通讯) XSTokenizerSplit 内置的分割分词器 XSTokenizerXlen 内置的定长分词器 XSTokenize...

12.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎，小问题优化改进)

发布时间：2013-12-11 15:12 t By hightman

...代码兼容性 2. 增加用户案例文档：USERCASE 3. 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 X...

13.使用自定义词库的时候，部分词会丢失

更新时间：2014-04-18 17:04 t By tianly

...是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb，然后尝试分词“朝鲜近日播放的一个纪录片中，发现”，发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近日 [off] => 6 ...

14.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间：2011-09-23 13:09 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支...

15.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写，索引设计基于著名而悠久的 [Xapian][1]，分词采用自主研发同样也是开源的 [SCWS分词][2]，两者完美结合，理论上单个搜索库支持 40 亿条记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

16.咨询SCWS准确率是如何计算出来的

发布时间：2013-10-08 17:10 t By tiankong

我想咨询一个问题。SCWS官网简介上指出，SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。上面的准确率是如何计算出来的呢？或者有其他类似的标准测试工具吗？谢谢！

17.RE: 中文分组粗分方法

发布时间：2010-05-26 19:05 t By baobao

...立断 14.01 8.10 i WORD ATTR我都能理解。上贴说的逐字分词后计算权重的时候使用IDF，貌似就是类似基于字典的最大概率方式来定义权重，或者说是对于歧义的取舍。 TF IDF 具体是指什么？使用的概率计算公式能阐述下么？ ...

先谢谢highman提供了这么方便的分词工具！使用中发现，在字典的建立过程中，及php make_xdb_file.php 报了一大堆警告： Notice: Undefined index: tf in C:\xampp\php\xdb\make_xdb_file.php on line 93 Notice: Undefined index: idf in C:\xampp\php\xdb\make_xdb_file.p...

19.xunsearch-1.4.1 (xapian+scws 开源搜索引擎，修正搜索进程死锁)

发布时间：2013-02-21 11:02 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

20.C版简易中文分词-cscwsd-0.0.3 发布

发布时间：2007-06-06 10:06 t By hightman

...下：运行后在本地绑定一个端口（缺省是 4700）监听处理分词服务，无其它功能。针对输入的文字进行分词后然后原样输出，注意每次输入均以 "\n" 作为处理标记，即一行处理一次并返回。这样作的目的在于提高分词的效率和通...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索