...1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全文检索 , 此次 ...
测试了下100万数据时Xunsearch的性能,包括建立索引时间、搜索速度、索引大小。 建立索引时间: 每1万条数据花费时间约为4.14分钟; 搜索速度:100万数据搜索速度在0.5秒左右; 索引大小:索引大小大约为数据大小的3.5倍...
测试了下100万数据时Xunsearch的性能,包括建立索引时间、搜索速度、索引大小。 建立索引时间: 每1万条数据花费时间约为4.14分钟; 搜索速度:100万数据搜索速度在0.5秒左右; 索引大小:索引大小大约为数据大小的3.5倍...
...也贴个 e3-1245 16G DDR3 software-raid1 磁盘速度大约150MB/s 360万完全重头建花费3.5小时左右 用bash脚本调用php插入的 没插入500条暂停0.5秒 最终索引数目和数据库中的有0.1%内的误差 是由于某个时间点负载较高 估计被抛弃或者重复...
...代码。 这套分词目前的速度也超出了我的想象,实测 8万字节的中文文本在我的服务器上最快达 0.07秒(双核双CPU 3.0G),使用 php 扩展速度要略慢了 40% 左右,8万字节大概要 0.4~0.6秒不定。
...]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了12万元啊 今 天花 了 万 元 啊 [xxxxx@www etc]$ scws -v scws (scws-cli/1.1.8: Simpled Chinese Words Segment - Command line usage) 版本1.1.8
...apian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持 PHP 语言。API 简单清晰,开发难度极低...
1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。 [url=http://www.dot66.net/search2.php]http://www.dot66.net/...
...t [/quote] 呵呵 原来如此 非常感谢,数据已经导入了500万左右,做了测试,真是相当快,最慢的也就1秒就有结果了,顶起~~
...PubMed搜索 http://www.chinapubmed.net/pub/search.php 这个词条约50万(6200个纯手工打造,其他程序导入)(数据库文件700多M,xunsearch索引文件库文件约3G。搜索速度在0.5秒左右!就是搜索[color=#FF4500]英文长字符串不给力[/color]! b,专业...