搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

201.xunsearch-1.4.6 (基于 xapian 和 scws开源中文搜索引擎，高扛压不再死锁)

更新时间：2013-03-27 13:03 t By hightman

.... 修改 XSTokenizerScws 以支持项目级自定义词典的 6. 自定义分词器的字段也能参与权重计算了，在 ini 指定 `non_bool = yes` 7. 采用 bootstrap 框架美化 util.SearchSkel 生成页面效果官方网站：[url]http://www.xunsearch.com[/url] 下载地址：[url]h...

202.在使用scws中遇到的怪问题，是否是bug，估计php缓冲区问题，恳求帮助

发布时间：2010-05-22 13:05 t By 逆雪寒

...用过程中个问题。 get_tops 这个方法。10次有7次不返回分词数组。经常为空数组。但强制刷新后又能正常的返回数组了。我以为椒 php 缓冲区问题。我看胃官方的demo文档。发现代码上有 flush () 强行刷新缓冲区。不过伙使用了...

203.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

在 scws.c 中，由于取词时使用一个 unsigned char 来记录分词的长度，存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

204.xunsearch-1.4.0 (基于xapian+scws的开源中文搜索，大幅改进性能及稳定性)

发布时间：2013-01-22 12:01 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

205.RE: 这个不支持英文词典和中英文混合词典啊

发布时间：2012-02-22 19:02 t By vanni

如果只要文章中有Linux出现就算是Linux相关文章的话，其实是不需要分词了，直接用全文搜索Linux就好了。只是SCWS目前看前来它的自定义词典不支持超过3个字，如果可以的话，可以通过自定义“Linux优化”来指定分词

206.RE: XSTokenizerScws的一个使用问题

发布时间：2013-02-02 13:02 t By tisswb

...是因为二元结合法所以scws自动将其合成为一个词。复合分词是对原本是词的长词情况处理的，比如”中国“可以切成”中“＋”国“＋”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getRe...

207.[特别提供] 纯PHP编写的sqlite词典工具！！

更新时间：2010-07-08 22:07 t By limaoxiang

...项目，希望更多的人能有用。原因：我希望给网站提供分词功能，但是，我只能用php方式，也不能修改服务器的设置（合租的服务器，windows环境），所以我只能用scws23了，但是词库我希望自己修改添加，但是XDB，这个格式我用...

208.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

...知道xdb与txt相比，那个效率更高另外，scws对于中英文分词效果不是很好，即文中的中文分得还可以，但对于页面中的英文部分，包括email,url,host这类处理效果比较差，我们目前采用两个分析器配合使用来达到最好的效果，要...

209.RE:1251

发布时间：2008-04-26 08:04 t By hightman

繁体分词演示: [url]http://www.hightman.cn/demo/scws/v48.cht.php[/url] 引擎本身不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的...

210.xunsearch-1.4.7 (基于 xapian+scws 的开源中文搜索引擎，诸多细节改进)

发布时间：2013-07-30 11:07 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索