文档章节

爬虫搜索基础篇(三)

张安懿
 张安懿
发布于 2015/11/20 09:13
字数 553
阅读 11
收藏 0

2.App内容

现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。

抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。

三.了解网络请求

如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。

其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:

 HTTP请求

抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。

请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

主键值 

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    零基础爬虫学习全记录2:今日头条指定搜索内容下的所有图集图片保存——图片采集小程序

    零基础爬虫学习全记录 无论仅仅有多少基础,都不该在徘徊和犹豫中浪费! 只有放弃幻想,用行动促进思考,才能最快找到想要的路。 背景: 没有任何编程基础的金融学专业学生,C语言都没接触过...

    无小意丶
    2017/10/27
    0
    0
    Python 数据挖掘学习 一 结巴分词

    近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

    shuilan0066
    01/22
    0
    0
    精通Node爬虫-01-给门外汉说明白什么是爬虫

    记得我刚刚入职不久,我就接到一个爬虫任务。当时负责设计的同事就问我到底什么是爬虫,当时我的解释是:“程序模仿人访问网页数据的行为,获取想要的数据。”这个解释是没问题的,但是门外汉...

    布宝
    05/21
    0
    0
    python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数...

    小七奇奇
    2017/11/13
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    正弦 余弦 角度 用于画时钟

    <html> <head> <title>时钟</title> </head> <style> #canvas{ background: #1977ca } </style>......

    一箭落旄头
    28分钟前
    1
    0
    drupal7自定义模块之表单(新手向)

    前段时间要给网站做个高级搜索的功能,但drupal7自带的搜索远远无法满足需求,便有了自己开发的需求 我以前没有接触过drupal,做这个功能也是困难重重,几乎是从零开始,我将目光放到了自定义模块...

    gcudwork
    33分钟前
    0
    0
    驰狼课堂

    http://www.chilangedu.com/

    求是科技
    51分钟前
    0
    0
    jumpserver 报错"Incorrect string value

    申明 本文所有内容参考自jumpserver记录命令无法入库问题 #1773 简介 jumpserver 1.4.0在jumpserver.log中大量报错,错误日志 File "/opt/jumpserver/apps/terminal/api.py", line 246, i...

    zhnxin
    57分钟前
    2
    0
    用户管理相关配置文件及命令

    9月19日任务 2.27linux和windows互传文件 3.1 用户配置文件和密码配置文件 3.2 用户组管理 3.3 用户管理 扩展知识 实用小工具 简单命令行下实现Linux/Windows文件互传 前提:使用远程工具Xsh...

    robertt15
    今天
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部