文档章节

自动更改IP地址反爬虫封锁,支持多线程

杨尚川
 杨尚川
发布于 2015/03/25 03:14
字数 2300
阅读 1902
收藏 115

8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接使用。

ADSL拨号上网使用动态IP地址,每一次拨号得到的IP都不一样,所以我们可以通过程序来自动进行重新拨号以获得新的IP地址,以达到突破反爬虫封锁的目的。

那么我们如何进行自动重新拨号呢?

假设有10个线程在跑,大家都正常的跑,跑着跑着达到限制了,WEB服务器提示你“非常抱歉,来自您ip的请求异常频繁”,于是大家争先恐后(几乎是同时)请求拨号,这个时候同步的作用就显示出来了,只会有一个线程能拨号,在他结束之前其他线程都在等,等他拨号成功之后,其他线程会被唤醒并返回

算法描述:
1、假设总共有N个线程抓取网页,发现被封锁之后依次排队请求锁,注意:可以想象成是同时请求。
2、线程1抢先获得锁,并且设置isDialing = true后开始拨号,注意:线程1设置isDialing = true后其他线程才可能获得锁。
3、其他线程(2-N)依次获得锁,发现isDialing = true,于是wait。注意:获得锁并判断一个布尔值,跟后面的拨号操作比起来,时间可以忽略。
4、线程1拨号完毕isDialing = false。注意:这个时候可以断定,其他所有线程必定是处于wait状态等待唤醒。
5、线程1唤醒其他线程,其他线程和线程1返回开始抓取网页。
6、抓了一会儿之后,又会被封锁,于是回到步骤1。

在本场景中,3和4的断定是没问题的,就算是出现“不可能”的情况,即线程1已经拨号完成了,可2-N还没获得锁(汗),也不会重复拨号的情况,因为算法考虑了请求拨号时间和上一次成功拨号时间。

下面以腾达300M无线路由器,型号:N302 v2为例子来说明。

首先,设置路由器:上网设置 -》请根据需要选择连接模式 -》手动连接,由用户手动进行连接,如下图所示。其他的路由器使用方法类似,参照本方法替换相应的登录地址、断开连接及建立连接地址即可。

其次,利用Firefox的Firebug功能找到路由器的登录路径及参数、断开连接路径及参数、建立连接路径及参数,如下图所示。




接着,参考如下代码,替换自己相关的路径和参数:

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import java.util.*;

/**
 *
 * 自动更改IP地址反爬虫封锁,支持多线程
 *
 * ADSL拨号上网使用动态IP地址,每一次拨号得到的IP都不一样
 *
 * 使用腾达300M无线路由器,型号:N302 v2
 * 路由器设置中最好设置一下:上网设置 -》请根据需要选择连接模式 -》手动连接,由用户手动进行连接。
 * 其他的路由器使用方法类似,参照本类替换相应的登录地址、断开连接及建立连接地址即可
 *
 * @author 杨尚川
 */
public class DynamicIp {
    private DynamicIp(){}
    private static final Logger LOGGER = LoggerFactory.getLogger(DynamicIp.class);
    private static final String ACCEPT = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
    private static final String ENCODING = "gzip, deflate";
    private static final String LANGUAGE = "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3";
    private static final String CONNECTION = "keep-alive";
    private static final String HOST = "192.168.0.1";
    private static final String REFERER = "http://192.168.0.1/login.asp";
    private static final String USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:36.0) Gecko/20100101 Firefox/36.0";
    private static volatile boolean isDialing = false;
    private static volatile long lastDialTime = 0l;

    public static void main(String[] args) {
        toNewIp();
    }

    /**
     * 假设有10个线程在跑,大家都正常的跑,跑着跑着达到限制了,
     * 于是大家争先恐后(几乎是同时)请求拨号,
     * 这个时候同步的作用就显示出来了,只会有一个线程能拨号,
     * 在他结束之前其他线程都在等,等他拨号成功之后,
     * 其他线程会被唤醒并返回
     *
     * 算法描述:
     * 1、假设总共有N个线程抓取网页,发现被封锁之后依次排队请求锁,注意:可以想象成是同时请求。
     * 2、线程1抢先获得锁,并且设置isDialing = true后开始拨号,注意:线程1设置isDialing = true后其他线程才可能获得锁。
     * 3、其他线程(2-N)依次获得锁,发现isDialing = true,于是wait。注意:获得锁并判断一个布尔值,跟后面的拨号操作比起来,时间可以忽略。
     * 4、线程1拨号完毕isDialing = false。注意:这个时候可以断定,其他所有线程必定是处于wait状态等待唤醒。
     * 5、线程1唤醒其他线程,其他线程和线程1返回开始抓取网页。
     * 6、抓了一会儿之后,又会被封锁,于是回到步骤1。
     * 注意:在本场景中,3和4的断定是没问题的,就算是出现“不可能”的情况,
     * 即线程1已经拨号完成了,可2-N还没获得锁(汗),也不会重复拨号的情况,
     * 因为算法考虑了请求拨号时间和上一次成功拨号时间。
     * @return 更改IP是否成功
     */
    public static boolean toNewIp() {
        long requestDialTime = System.currentTimeMillis();
        LOGGER.info(Thread.currentThread()+"请求重新拨号");
        synchronized (DynamicIp.class) {
            if (isDialing) {
                LOGGER.info(Thread.currentThread()+"已经有其他线程在进行拨号了,我睡觉等待吧,其他线程拨号完毕会叫醒我的");
                try {
                    DynamicIp.class.wait();
                } catch (InterruptedException e) {
                    LOGGER.error(e.getMessage(), e);
                }
                LOGGER.info(Thread.currentThread()+"其他线程已经拨完号了,我可以返回了");
                return true;
            }
            isDialing = true;
        }
        //保险起见,这里再判断一下
        //如果请求拨号的时间小于上次成功拨号的时间,则说明这个请求来的【太迟了】,则返回。
        if(requestDialTime <= lastDialTime){
            LOGGER.info("请求来的太迟了");
            isDialing = true;
            return true;
        }
        LOGGER.info(Thread.currentThread()+"开始重新拨号");
        long start = System.currentTimeMillis();
        Map<String, String> cookies = login("username***", "password***", "phonenumber***");
        if("true".equals(cookies.get("success"))) {
            LOGGER.info(Thread.currentThread()+"登陆成功");
            cookies.remove("success");
            while (!disConnect(cookies)) {
                LOGGER.info(Thread.currentThread()+"断开连接失败,重试!");
            }
            LOGGER.info(Thread.currentThread()+"断开连接成功");
            while (!connect(cookies)) {
                LOGGER.info(Thread.currentThread()+"建立连接失败,重试!");
            }
            LOGGER.info(Thread.currentThread()+"建立连接成功");
            LOGGER.info(Thread.currentThread()+"自动更改IP地址成功!");
            LOGGER.info(Thread.currentThread()+"拨号耗时:"+(System.currentTimeMillis()-start)+"毫秒");
            //通知其他线程拨号成功
            synchronized (DynamicIp.class) {
                DynamicIp.class.notifyAll();
            }
            isDialing = false;
            lastDialTime = System.currentTimeMillis();
            return true;
        }
        isDialing = false;
        return false;
    }

    public static boolean connect(Map<String, String> cookies){
        return execute(cookies, "3");
    }
    public static boolean disConnect(Map<String, String> cookies){
        return execute(cookies, "4");
    }
    public static boolean execute(Map<String, String> cookies, String action){
        String url = "http://192.168.0.1/goform/SysStatusHandle";
        Map<String, String> map = new HashMap<>();
        map.put("action", action);
        map.put("CMD", "WAN_CON");
        map.put("GO", "system_status.asp");
        Connection conn = Jsoup.connect(url)
                .header("Accept", ACCEPT)
                .header("Accept-Encoding", ENCODING)
                .header("Accept-Language", LANGUAGE)
                .header("Connection", CONNECTION)
                .header("Host", HOST)
                .header("Referer", REFERER)
                .header("User-Agent", USER_AGENT)
                .ignoreContentType(true)
                .timeout(30000);
        for(String cookie : cookies.keySet()){
            conn.cookie(cookie, cookies.get(cookie));
        }

        String title = null;
        try {
            Connection.Response response = conn.method(Connection.Method.POST).data(map).execute();
            String html = response.body();
            Document doc = Jsoup.parse(html);
            title = doc.title();
            LOGGER.info("操作连接页面标题:"+title);
        }catch (Exception e){
            LOGGER.error(e.getMessage());
        }
        if("LAN | LAN Settings".equals(title)){
            if(("3".equals(action) && isConnected())
                    || ("4".equals(action) && !isConnected())){
                return true;
            }
        }
        return false;
    }
    public static boolean isConnected(){
        try {
            Document doc = Jsoup.connect("http://www.baidu.com/s?wd=杨尚川&t=" + System.currentTimeMillis())
                    .header("Accept", ACCEPT)
                    .header("Accept-Encoding", ENCODING)
                    .header("Accept-Language", LANGUAGE)
                    .header("Connection", CONNECTION)
                    .header("Referer", "https://www.baidu.com")
                    .header("Host", "www.baidu.com")
                    .header("User-Agent", USER_AGENT)
                    .ignoreContentType(true)
                    .timeout(30000)
                    .get();
            LOGGER.info("搜索结果页面标题:"+doc.title());
            if(doc.title() != null && doc.title().contains("杨尚川")){
                return true;
            }
        }catch (Exception e){
            if("Network is unreachable".equals(e.getMessage())){
                return false;
            }else{
                LOGGER.error("状态检查失败:"+e.getMessage());
            }
        }
        return false;
    }
    public static Map<String, String> login(String userName, String password, String verify){
        try {
            Map<String, String> map = new HashMap<>();
            map.put("Username", userName);
            map.put("Password", password);
            map.put("checkEn", "0");
            Connection conn = Jsoup.connect("http://192.168.0.1/LoginCheck")
                    .header("Accept", ACCEPT)
                    .header("Accept-Encoding", ENCODING)
                    .header("Accept-Language", LANGUAGE)
                    .header("Connection", CONNECTION)
                    .header("Referer", REFERER)
                    .header("Host", HOST)
                    .header("User-Agent", USER_AGENT)
                    .ignoreContentType(true)
                    .timeout(30000);

            Connection.Response response = conn.method(Connection.Method.POST).data(map).execute();
            String html = response.body();
            Document doc = Jsoup.parse(html);
            LOGGER.info("登陆页面标题:"+doc.title());
            Map<String, String> cookies = response.cookies();
            if(html.contains(verify)){
                cookies.put("success", Boolean.TRUE.toString());
            }
            LOGGER.info("*******************************************************cookies start:");
            cookies.keySet().stream().forEach((cookie) -> {
                LOGGER.info(cookie + ":" + cookies.get(cookie));
            });
            LOGGER.info("*******************************************************cookies end:");
            return cookies;
        }catch (Exception e){
            LOGGER.error(e.getMessage(), e);
        }
        return Collections.emptyMap();
    }
}


最后,就可以使用了,例子如下:

public static void classify(Set<Word> words){
    LOGGER.debug("待处理词数目:"+words.size());
    AtomicInteger i = new AtomicInteger();
    Map<String, List<String>> data = new HashMap<>();
    words.forEach(word -> {
        if(i.get()%1000 == 999){
            save(data);
        }
        showStatus(data, i.incrementAndGet(), words.size(), word.getWord());
        String html = getContent(word.getWord());
        LOGGER.debug("获取到的HTML:" +html);
        while(html.contains("非常抱歉,来自您ip的请求异常频繁")){
            //使用新的IP地址
            DynamicIp.toNewIp();
            html = getContent(word.getWord());
        }
        if(StringUtils.isNotBlank(html)) {
            parse(word.getWord(), html, data);
        }else{
            NOT_FOUND_WORDS.add(word.getWord());
        }

    });
    //写入磁盘
    save(data);
    LOGGER.debug("处理完毕,总词数目:"+words.size());
}


本文讲述的方法和代码来源于本人的开源目superword,superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。


代码链接:

1、https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/DynamicIp.java 

2、https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/WordClassifier.java




© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
加载中

评论(8)

杨尚川
杨尚川 博主

引用来自“nikola_hua”的评论

大神能不能推荐下一些比较好的讲爬虫书?
目前没有这方面的好书
nikola_hua
nikola_hua
大神能不能推荐下一些比较好的讲爬虫书?
lanmingle
lanmingle
mark,以后可能会用到
杨尚川
杨尚川 博主

引用来自“优雅先生”的评论

代码有一些不太直观,比如这种;
if("LAN | LAN Settings".equals(title)){
if(("3".equals(action) && isConnected())
|| ("4".equals(action) && !isConnected())){
可能你自己抓包,你明白什么意思,但对于读者来说,有点云里雾里,建议楼主重构下。
稍微用点心,就会觉得很简单了。
优雅先生
优雅先生
代码有一些不太直观,比如这种;
if("LAN | LAN Settings".equals(title)){
if(("3".equals(action) && isConnected())
|| ("4".equals(action) && !isConnected())){
可能你自己抓包,你明白什么意思,但对于读者来说,有点云里雾里,建议楼主重构下。
杨尚川
杨尚川 博主

引用来自“Tex”的评论

通过http请求头可以伪造IP吗?
要看网站是怎么获取用户IP的了,如果网站是这样获取用户IP: public String getIpAddress(HttpServletRequest request) { String ip = request.getHeader("X-Forwarded-For"); if(ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getHeader("Proxy-Client-IP"); } if(ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getHeader("WL-Proxy-Client-IP"); } if(ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getRemoteAddr(); } return ip; } 你就可以通过HTTP请求头伪造IP了: .header("X-Forwarded-For", getRandomIp()) .header("Proxy-Client-IP", getRandomIp()) .header("WL-Proxy-Client-IP", getRandomIp())
Tex
Tex
通过http请求头可以伪造IP吗?
狂暴的大螃蟹
狂暴的大螃蟹
何不刷一个路由系统 做个api ,统一管理 又方便
爬虫以及爬虫如何解决ip封锁问题的探究

一、简介 网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。【从别人的网站爬取有用数据到自己本地数据库】 网络爬...

谢思华
2013/12/03
1K
2
OSChina 技术周刊第27期 —— Git@OSC 支持 SVN

每周技术抢先看,总有你想要的! 没错没错,本周最热门 —— Git@OSC 支持 SVN 了!!! 移动开发 【博客】如何通过使用 fiddler 对安卓系统设备抓包总结 【博客】编程第一个 Apple Watch 程...

OSC编辑部
2015/03/29
1K
0
OSChina 技术周刊第二十七期 —— 每周技术精粹

每周技术抢先看,总有你想要的! 移动开发 【博客】编程第一个Apple Watch 程序创建项目 【博客】如何通过使用 fiddler 对安卓系统设备抓包总结 前端开发 【软件】CSS 动画加载效果 Loaders....

OSC编辑部
2015/03/29
132
0
[转] 互联网网站的反爬虫策略浅析

因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各...

鉴客
2010/11/24
821
1
关于反爬虫,看这一篇就够了

你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜利,实际上让他们受损失。 一、为什么要反爬虫 1. 爬...

毛爷爷夸我帅
2016/07/08
163
0

没有更多内容

加载失败,请刷新页面

加载更多

最简单的获取相机拍照的图片

  import android.content.Intent;import android.graphics.Bitmap;import android.os.Bundle;import android.os.Environment;import android.provider.MediaStore;import andr......

MrLins
50分钟前
4
0
说好不哭!数据可视化深度干货,前端开发下一个涨薪点在这里~

随着互联网在各行各业的影响不断深入,数据规模越来越大,各企业也越来越重视数据的价值。作为一家专业的数据智能公司,个推从消息推送服务起家,经过多年的持续耕耘,积累沉淀了海量数据,在...

个推
51分钟前
7
0
第三方支付-返回与回调注意事项

不管是支付宝,微信,还是其它第三方支付,第四方支付,支付机构服务商只要涉及到钱的交易都要进行如下校验,全部成功了才视为成功订单 1.http请求是否成功 2.校验商户号 3.校验订单号及状态...

Shingfi
54分钟前
4
0
简述Java内存分配和回收策略以及Minor GC 和 Major GC(Full GC)

内存分配: 1. 栈区:栈可分为Java虚拟机和本地方法栈 2. 堆区:堆被所有线程共享,在虚拟机启动时创建,是唯一的目的是存放对象实例,是gc的主要区域。通常可分为两个区块年轻代和年老代。更...

DustinChan
今天
6
0
Excel插入批注:可在批注插入文字、形状、图片

1.批注一直显示:审阅选项卡-------->勾选显示批注选项: 2.插入批注快捷键:Shift+F2 组合键 3.在批注中插入图片:鼠标右键点击批注框的小圆点【重点不可以在批注文本框内点击】----->调出批...

东方墨天
今天
6
1

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部