是比较高,蜘蛛爬的厉害。现在经常出现500Connection refused(C#111)而且服务一天必须重启一次,否则肯定会出现进程假死!
像蜘蛛爬虫那样去检索指定的网站,把数据存入数据库,然后搜索 [hr] 像 sphider 开源的那个,只不过他没有中文分词
...和全文搜索。 就是因为提取出更多的页面,让搜索引擎蜘蛛没完没了的爬,达到网页聚合的目的。这样做我估计对优化很有帮助。 选择scws的原因是比较了几个中文分词后,感觉scws是一个不错的分词系统。 xunsearch速度也比较快...