像蜘蛛爬虫那样去检索指定的网站,把数据存入数据库,然后搜索 [hr] 像 sphider 开源的那个,只不过他没有中文分词
是比较高,蜘蛛爬的厉害。现在经常出现500Connection refused(C#111)而且服务一天必须重启一次,否则肯定会出现进程假死!
爬虫我认为可以自己扩展一个,xunsearch作为一个站内的全文搜索解决方案,蜘蛛的话就没有必要了
首页说下我为什么安装中文分词和全文搜索。 就是因为提取出更多的页面,让搜索引擎蜘蛛没完没了的爬,达到网页聚合的目的。这样做我估计对优化很有帮助。 选择scws的原因是比较了几个中文分词后,感觉scws是一个不错的...