1.url 的遍历和纪录
2.多进程 VS 多线程
3.时间更新控制
4.爬的深度
5.爬虫一般不直接爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。
6.请有空的时候照看一下robots.txt
7.存储结构。
1.url 的遍历和纪录
2.多进程 VS 多线程
3.时间更新控制
4.爬的深度
5.爬虫一般不直接爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。
6.请有空的时候照看一下robots.txt
7.存储结构。
© 著作权归作者所有