蜘蛛的设计分析

原创
2012/03/13 15:45
阅读数 21.4W

蜘蛛的设计分析

1.url 的遍历和纪录

2.多进程 VS 多线程

3.时间更新控制

4.爬的深度

5.爬虫一般不直接爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

6.请有空的时候照看一下robots.txt

7.存储结构。

展开阅读全文
加载中

作者的其它热门文章

打赏
0
2 收藏
分享
打赏
0 评论
2 收藏
0
分享
返回顶部
顶部