文档章节

爬虫以及爬虫如何解决ip封锁问题的探究

谢思华
 谢思华
发布于 2013/12/03 18:25
字数 909
阅读 1240
收藏 21

一、简介

     网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。【从别人的网站爬取有用数据到自己本地数据库】

      网络爬虫基本原理以及jsoup基本使用方法:http://my.oschina.net/xsh1208/blog/465121 

二、分类

     传统爬虫和聚焦爬虫。

     传统爬虫:从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。

     聚焦爬虫:工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

三、防爬虫

    KS-WAF:将爬虫行为分为 搜索引擎爬虫 及 扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。


四、爬虫技术

    nutch     httpclient    Jsoup  等等

     Httpclient:可以仿浏览器访问

     【具体介绍之后补上】

五、爬虫程序策略(爬虫如何解决ip封锁问题)

     本地通过程序爬取他人网站内容,如遇被封ip,则可采取以下方式处理:

      1、技术处理【调节网页爬虫的请求频率

     在程序中使用伪装术,不明目张胆的爬【使用代理;使用高级爬虫(不定周期爬)】

      2、简单处理【随时动态更换ip】          

       如果在公司被封ip,则可考虑重启路由,重新获取公网ip

       自动更改IP地址反爬虫封锁,支持多线程,可参考(待校验):http://www.open-open.com/lib/view/open1427353292652.html

      3、网络处理 【与第2点类似,代理访问,ADSL拨号】         

       被封ip后,本地ip不能访问该网站,但是设置了代理服务器后,浏览器可以访问该网站【注意:程序不可以访问网站,故可以给请求的http设置代理】。可以在命令行加路由,一般格式为:route add ip地址 mask 子网掩码 默认网关前提:把掩码要改成跟上面掩码一样。这个路由重新开机就没有了。可以 route add -p ip地址 mask 子网掩码 默认网关。这样的话,重新开机都在的。

      使用ADSL拨号最大的有点就是:ip不固定,重启下路由就可以换一个新的ip了。而且ISP拥有大量的IP,会分配到和之前相同的IP机率很低。一旦你发现目前的IP被封锁,便可以立刻呼叫相关的API将网络断线并重新拨号,取得新的IP继续执行。

       

© 著作权归作者所有

谢思华
粉丝 77
博文 221
码字总数 152858
作品 0
广州
程序员
私信 提问
加载中

评论(2)

p
panyuntech
还是使用手机作为代理服务器吧,资源好找 可参考 https://my.oschina.net/u/4075932/blog/3008073
x
xiatiandefeng
很有用的技术干货,多谢分享了,赞79
分享一个免费好用的云端爬虫开发平台
http://www.shenjianshou.cn/
爬虫与反爬虫的博弈

图片来自 unsplash 1 前言 近来这两三个月,我陆续将自己学到的爬虫技术分享出来。以标准网络库 urllib 的用法起笔,接着介绍各种内容提供工具,再到后续的 scrapy 爬虫框架系列。我的爬虫分...

猴哥Yuri
2017/10/14
0
0
手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫 - 知乎

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教...

数据黑板
昨天
0
0
手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教...

游牧民族
2016/05/16
305
0
爬虫怎样解决ip封锁

@黄亿华 你好,想跟你请教个问题: 请教一下爬虫如果网站因为访问过多而封锁ip了怎么办, 以前用原始的HttpURLConnection貌似没被封锁过,现在换到HttpClientComponent 就被封锁住了,同样设...

ghost666999
2014/01/13
4.7K
8
由大量爬虫请求引起的带宽占满事件分析和解决方案

背景 2018年2月24日晚,卓见云某客户网站公网出流量突然爆发性增长,导致带宽被占满,事故发现后紧急提升了SLB的带宽,但提升后的带宽仍然被流量占满(原带宽15M,提升至35M)。由于事故发生...

卓见架构狮
2018/03/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

006-Sigle-基于blockstack去中心化博客

本篇文章主要讲解有关基于Blockstack的Sigle是一个去中心化的博客项目; 官网地址:https://www.sigle.io/ Github地址:https://github.com/pradel/sigle 页面展示: 介绍: A beautiful de...

Riverzhou
17分钟前
8
0
驰骋工作流引擎开发平台属性功能的隐藏显示介绍

关键字: 工作流程管理系统 工作流引擎 asp.net工作流引擎 java工作流引擎. 表单引擎 工作流功能说明 工作流设计 工作流快速开发平台 业务流程管理 bpm工作流系统 java工作流主流框架 自定义...

孟娟
19分钟前
7
0
MyBatis binding 模块分析

MyBatis binding 模块分析 binding功能代码所在包 org.apache.ibatis.binding binding模块作用 封装ibatis编程模型 ibatis编程模型中,SqlSession作为sql执行的入口,实用方法为sqlSession.se...

红妍落日
21分钟前
4
0
网易互娱的数据库选型和 TiDB 应用实践

作者介绍:李文杰,网易互娱计费组,高级数据库管理工程师,TiDB User Group Ambassador。 一、业务架构简介 计费组是为网易互娱产品提供统一登录和支付高效解决方案的公共支持部门,对内是互...

TiDB
28分钟前
5
0
Debezium接入Mysql遇到到的Tinyint坑

问题背景: 在Debezium做数据初始化的时候,对于一些tinyint字段的值,出现0,1的值的异常。 经过源码排查,数据在JDBC上面,读取到的数据是Boolean值。 通过排查,原来是MYSQL特有的数据问题...

吐槽的达达仔
36分钟前
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部