文档章节

从零实现一个高性能网络爬虫(一)网络请求分析及代码实现

卧颜沉默
 卧颜沉默
发布于 2017/05/23 09:32
字数 1690
阅读 21
收藏 0

摘要

从零实现一个高性能网络爬虫系列教程第一篇,后续会有关于url去重、如何反爬虫、如何提高抓取效率、分布式爬虫系列文章。
以我写的一个知乎爬虫为Demo讲解,github地址 (https://github.com/wycm/zhihu-crawler) ,有兴趣的朋友可以star下。
网络请求的分析是写网络爬虫非常关键且重要的一个步骤。这篇文章以知乎网站为例,从网络请求分析到代码(java)实现。

目的

获取某个知乎用户的所有关注用户的个人资料

请求分析

  • 就目前的大部分网页来说,网页上能看到的数据大多都是直接在网站后台生成好数据(有的网页是在网站前端通过js代码处理后显示,如数据混淆、加密等)直接在前台显示。
  • 虽然很多网站采用了ajax异步加载,但是归根结底它还是一个http请求。只要能够分析出对应数据的请求来源,那么就很容易的拿到你想要的数据了。以下步骤讲解如何分析http请求。
  1. 以我的知乎账户为例,获取我的所有关注用户资料。首先打开我的关注列表,可以看到主面板就是我的关注用户列表,
    我一共关注233个用户,现在目的是就是要获取这233个用户的个人资料信息。打开F12->NetWork,勾选上Preserve log和Disable cache(如下图)。
  2. 下拉滚动条,点击下一页获取对应请求(在翻页的过程会有很多无关的请求),待页面加载完成后,在请求列表中右键->Save as HAR with content,这个文件是把当前请求(request)列表保存为
    json格式文本,保存后使用chrome打开这个文件,搜索(Ctrl+F)页面出现的关键字,要注意这里中文采用了unicode编码,我这里直接搜索5032(李博杰的关注者数,见下图)。这一步骤的目的是获取我们想要数据(关注用户的个人资料)的请求来源。
  3. 由步骤2搜索得出,关注用户的资料数据来自以下请求(如下图),url解码后为https://www.zhihu.com/api/v4/members/wo-yan-chen-mo/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=20&limit=20(url1),从这里可以看出关注列表的数据并不是从(url2)同步加载而来的,而是直接通过ajax异步请求url1来获得关注用户数据,然后通过js代码填充数据。这里要注意用红色矩形圈住的authorization request header,在代码实现的时候必须加上这个header。这个数据并不是动态改变的,通过步骤2的方式可以发现它是来自一个js文件。该步骤注意的是,我写该文章的时候是2017-04-27,随着时间推移,知乎可能会更新相关api接口的url,也就是说通过步骤2得出的url有可能并不是我上面的url1,但是具体分析的方法还是通用的。
  4. 多测试几次可以得出以上url1的参数含义如下
    参数名 类型 必填 说明
      include   String   是   data[*]answer_count,articles_count   需要返回的字段(这个值可以改根据需要增加一些字段)
      offset   int   是   0   偏移量(通过调整这个值可以获取到一个用户的所有关注用户资料)
      limit   int   是   20   返回用户数(最大20,超过20无效)
  5. 关于如何测试请求,我常用的以下三种方式
    • 原生chrome浏览器。可以做一些简单的GET请求测试,这种方式有很大的局限性,不能编辑http header。如果直接(未登录知乎)通过浏览器访问url1,会得到401的response code。因为它没有带上authorization request header。所以这种方式能测试一些简单且没有特殊request header的GET请求。
    • chrome插件Postman。一个很强大的http请求测试工具,可以直接编辑request header(包括cookies)。如果可以FQ的话,强烈推荐。GET、POST、PUT等都是支持的,几乎可以发送任意类型的http请求,测试的url1如下图。通过修改它参数的值,来看服务器响应数据的变化来确定参数含义

       

    • intellij idea ultimate版自带的工具。打开方式 Tools->Test RESTful Web Service。也是可以直接编辑http header(包括cookies)请求发送,GET、POST、PUT等请求方式也都是支持的。
  6. response是一段json格式的数据,中文是采用的unicode编码,解码后数据内容如下图

 

 

代码实现

  • 代码采用的Java HttpClient4.x,关于HttpClient4.x的使用我这里不过多讲解,要注意的是HttpClient4.x和3.x API有很大的差异。
    package com.cnblogs.wycm;
    
    import com.alibaba.fastjson.JSON;
    import com.alibaba.fastjson.JSONObject;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;
    
    import java.io.IOException;
    
    /**
     * 获取wo-yan-chen-mo关注的所有知乎用户信息
     * 只是把用户资料打印出来,没有具体解析(关于解析出详细数据可以采用正则表达式、json库、jsonpath等方式)
     */
    public class Demo {
        public static void main(String[] args) throws IOException {
            //创建http客户端
            CloseableHttpClient httpClient = HttpClients.createDefault();
    
            String url = "https://www.zhihu.com/api/v4/members/wo-yan-chen-mo/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";
    
            //创建http request(GET)
            HttpGet request = new HttpGet(url);
    
            //设置http request header
            request.setHeader("authorization", "oauth c3cef7c66a1843f8b3a9e6a1e3160e20");
            //执行http请求
            CloseableHttpResponse response = httpClient.execute(request);
            //打印response
            String responseStr = EntityUtils.toString(response.getEntity());
            System.out.println(responseStr);
    
            String nextPageUrl = getNextPageUrl(responseStr);
            boolean isEnd = getIsEnd(responseStr);
    
            while (!isEnd && nextPageUrl != null){
                //创建http request(GET)
                request = new HttpGet(nextPageUrl);
    
                //设置http request header
                request.setHeader("authorization", "oauth c3cef7c66a1843f8b3a9e6a1e3160e20");
                response = httpClient.execute(request);
                //打印response
                responseStr = EntityUtils.toString(response.getEntity());
                System.out.println(responseStr);
                nextPageUrl = getNextPageUrl(responseStr);
                isEnd = getIsEnd(responseStr);
            }
        }
    
        /**
         * 获取next url
         * @param responseStr
         * @return
         */
        private static String getNextPageUrl(String responseStr){
            JSONObject jsonObject = (JSONObject) JSON.parse(responseStr);
            jsonObject = (JSONObject) jsonObject.get("paging");
            return jsonObject.get("next").toString();
        }
    
        /**
         * 获取is_end
         * @param responseStr
         * @return
         */
        private static boolean getIsEnd(String responseStr){
            JSONObject jsonObject = (JSONObject) JSON.parse(responseStr);
            jsonObject = (JSONObject) jsonObject.get("paging");
            return (boolean) jsonObject.get("is_end");
        }
    }

     

  • maven依赖

    <dependency>
          <groupId>org.apache.httpcomponents</groupId>
          <artifactId>httpclient</artifactId>
          <version>4.5</version>
        </dependency>
    
        <!-- https://mvnrepository.com/artifact/com.alibaba/fastjson -->
        <dependency>
          <groupId>com.alibaba</groupId>
          <artifactId>fastjson</artifactId>
          <version>1.2.31</version>
        </dependency>

     

© 著作权归作者所有

共有 人打赏支持
卧颜沉默
粉丝 2
博文 4
码字总数 6776
作品 0
成都
精通Python网络爬虫-书籍介绍

 内容简介 本书从技术、工具与实战3个维度讲解了Python网络爬虫: 技术维度:详细讲解了Python网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用urllib库编写网络爬虫、爬虫的异常...

weiwei_pig
2017/04/09
0
0
用Nodejs做一个简单的小爬虫

Nodejs将JavaScript语言带到了服务器端,作为js主力用户的前端们,因此获得了服务器端的开发能力,但除了用express搭建一个博客外,还有什么好玩的项目可以做呢?不如就做一个网络爬虫吧。据...

tower1229
2017/06/23
0
0
教授花3K购入三个Python爬虫教材, 知乎大佬看完后大喜, 血赚!

一、前言 本文的实战内容有: 网络小说下载(静态网站) 优美壁纸下载(动态网站) 爱奇艺VIP视频下载 二、网络爬虫简介 网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网...

Python新世界
08/02
0
0
用爬虫和Flask打造属于自己的电影网站,完整教程送上!

  也许你曾经为了一部电影找遍全网却没发现任何有用的资源,也许你曾经被披着电影外衣的网站忽悠进去而染上木马病毒。一部小小的电影搞得你心力交瘁,怀疑人生。不过,作为一名合格的程序员...

菜鸟学Python
07/28
0
0
月薪20K的Python程序员2018年Python学习进阶书籍推荐

用了python,与太阳肩并肩,本文与大家分享一些Python编程语言的入门书籍,其中不乏经典。以下书籍已经经中心多位编辑老师进行详细阅读后才整理出来供大家学习!推荐下大数据技术学习群:8050...

加米谷
07/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

树莓派上安装 Nextcloud 云

# install docker and docker composesudo apt-get updatesudo apt-get install git docker-composecurl -sSL https://get.docker.com | sh# fetch projectcd ~git clone https://git......

How11
8分钟前
0
0
python 基本语法

布尔值:True False,操作符有 and, or, not; 常量通常使用大写表示,如PI = 3.14159265359; 除法操作符有 /, //, %,如 10 / 3 = 3.3333333333333335,10 // 3 = 3, 10 % 3 = 1; 在计算机内存中...

bug_404
9分钟前
0
0
centos 下安装 elastic search 启动的问题

正常步骤 1Download and unzip Elasticsearch 2 Run bin/elasticsearch 3 Run curl http://localhost:9200/ 异常信息: root 账户启动报错,Exception in thread "main" Java.lang.RuntimeE......

xiaomin0322
16分钟前
0
0
mysql_exceptions.OperationalError: 1054

错误:python连接Mysql错误:_mysql_exceptions.OperationalError: (1054, "Unknown column 'CVE' in 'field lis解决办法 注:要根据自己具体情况进行判断,可以 print sql % args,来判断该...

fang_faye
18分钟前
0
0
分布式数据库DDM Sidecar模式负载均衡

简介 1.分布式数据库中间件 DDM 分布式数据库中间件(Distributed Database Middleware)是解决数据库容量、性能瓶颈和分布式扩展问题的中间件服务,提供分库分表、读写分离、弹性扩容等能力...

中间件小哥
22分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部