文档章节

爬虫搜索基础篇(三)

张安懿
 张安懿
发布于 2015/11/20 09:13
字数 553
阅读 11
收藏 0

2.App内容

现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。

抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。

三.了解网络请求

如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。

其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:

 HTTP请求

抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。

请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

主键值 

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    私信 提问
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    Python 数据挖掘学习 一 结巴分词

    近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

    shuilan0066
    2018/01/22
    0
    0
    Algo-Practice: 算法实践(JavaScript & Java),排序,查找、树、两指针、动态规划等

    记录一些算法实践 目录 Java篇 一、基础算法 七种基础排序 二叉堆 K选取问题 链表判环问题 N皇后问题 两指针扫描算法举例 位运算(求首个bit1,求bit1的个数,寻找奇数项) 最小栈的实现 横纵有...

    qcer
    2017/12/20
    0
    0
    WEB前端工程师-练成

    一、HTML和CSS基础 1.1 开发工具 1.1.1 前端开发工具技巧介绍-DW篇 1.1.2 前端开发工具技巧介绍-Sublime篇 1.2 HTML和CSS基础课程 1.2.1 HTML+CSS基础课程 1.3 网页布局 1.3.1 如何用CSS进行...

    霞女
    2015/12/02
    62
    0
    谈谈R中的乱码(三)

    前面讲过,R 中字符向量可以有多种编码。一般情况下,对于混合编码,R 都能很好的自动处理。例如: x1 <- '中国'x2 <- iconv(x1, 'GB2312', 'UTF-8') == 判断也没问题 x2 == '中国' [1] TRU......

    R语言中文社区
    2018/02/08
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    乱入Linux界的我是如何学习的

    欢迎来到建哥学Linux,咳!咳!咳!开个玩笑哈,我是一个IT男,IT界的入门选手,正在学习Linux。 在之前,一直想进军IT界,学习IT技术,但是苦于没有人指导,也不知道学什么,最开始我自己在...

    linux-tao
    41分钟前
    0
    0
    乱入Linux界的我是如何学习的

    欢迎来到建哥学Linux,咳!咳!咳!开个玩笑哈,我是一个IT男,IT界的入门选手,正在学习Linux。 在之前,一直想进军IT界,学习IT技术,但是苦于没有人指导,也不知道学什么,最开始我自己在...

    linuxprobe16
    今天
    9
    0
    OSChina 周日乱弹 —— 没时间 没头发 但有钱

    Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @开源中国总经办主任 :分享齐一的单曲《这个年纪》 《这个年纪》- 齐一 手机党少年们想听歌,请使劲儿戳(这里) @肿肿卷 :我真的可以睡一天...

    小小编辑
    今天
    90
    6
    Django进阶 1.1 ORM基础—ORM 1.2.1 增删改查之查询 1.2.2 删改增 (1) 1.2.3 删改增 (2)

    ORM基础 ORM是Django操作数据库的API,Django的作者将sql语句封装在里面供我们使用。 我们前面还提到过Django提供一个模拟数据库的工具,sqlite,供我们学习测试使用。 如果我们想使用mysql...

    隐匿的蚂蚁
    今天
    3
    0
    Windows 上安装 Scala

    在安装 Scala 之前需要先安装 Java 环境,具体安装的详细方法就不在这里描述了。 您可以自行搜索我们网站中的内容获得其他网站的帮助来获得如何安装 Java 环境的方法。 接下来,我们可以从 ...

    honeymose
    今天
    3
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部