文档章节

爬虫搜索基础篇(三)

张安懿
 张安懿
发布于 2015/11/20 09:13
字数 553
阅读 11
收藏 0

2.App内容

现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。

抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。

三.了解网络请求

如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。

其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:

 HTTP请求

抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。

请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

主键值 

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    私信 提问
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    WEB前端工程师-练成

    一、HTML和CSS基础 1.1 开发工具 1.1.1 前端开发工具技巧介绍-DW篇 1.1.2 前端开发工具技巧介绍-Sublime篇 1.2 HTML和CSS基础课程 1.2.1 HTML+CSS基础课程 1.3 网页布局 1.3.1 如何用CSS进行...

    霞女
    2015/12/02
    62
    0
    Algo-Practice: 算法实践(JavaScript & Java),排序,查找、树、两指针、动态规划等

    记录一些算法实践 目录 Java篇 一、基础算法 七种基础排序 二叉堆 K选取问题 链表判环问题 N皇后问题 两指针扫描算法举例 位运算(求首个bit1,求bit1的个数,寻找奇数项) 最小栈的实现 横纵有...

    qcer
    2017/12/20
    0
    0
    谈谈R中的乱码(三)

    前面讲过,R 中字符向量可以有多种编码。一般情况下,对于混合编码,R 都能很好的自动处理。例如: x1 <- '中国'x2 <- iconv(x1, 'GB2312', 'UTF-8') == 判断也没问题 x2 == '中国' [1] TRU...

    R语言中文社区
    02/08
    0
    0
    Python 数据挖掘学习 一 结巴分词

    近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

    shuilan0066
    01/22
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    Mariadb二进制包安装,Apache安装

    安装mariadb 下载二进制包并解压 [root@test-a src]# wget https://downloads.mariadb.com/MariaDB/mariadb-10.2.6/bintar-linux-glibc_214-x86_64/mariadb-10.2.6-linux-glibc_214-x86_64.t......

    野雪球
    今天
    3
    0
    ConcurrentHashMap 高并发性的实现机制

    ConcurrentHashMap 的结构分析 为了更好的理解 ConcurrentHashMap 高并发的具体实现,让我们先探索它的结构模型。 ConcurrentHashMap 类中包含两个静态内部类 HashEntry 和 Segment。HashEnt...

    TonyStarkSir
    今天
    3
    0
    大数据教程(7.4)HDFS的java客户端API(流处理方式)

    博主上一篇博客分享了namenode和datanode的工作原理,本章节将继前面的HDFS的java客户端简单API后深度讲述HDFS流处理API。 场景:博主前面的文章介绍过HDFS上存的大文件会成不同的块存储在不...

    em_aaron
    昨天
    4
    0
    聊聊storm的window trigger

    序 本文主要研究一下storm的window trigger WindowTridentProcessor.prepare storm-core-1.2.2-sources.jar!/org/apache/storm/trident/windowing/WindowTridentProcessor.java public v......

    go4it
    昨天
    7
    0
    CentOS 生产环境配置

    初始配置 对于一般配置来说,不需要安装 epel-release 仓库,本文主要在于希望跟随 RHEL 的配置流程,紧跟红帽公司对于服务器的配置说明。 # yum update 安装 centos-release-scl # yum ins...

    clin003
    昨天
    11
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部