文档章节

爬虫搜索基础篇(四)

张安懿
 张安懿
发布于 2015/11/25 16:48
字数 540
阅读 101
收藏 6

上面所说所讲的都是一点的基础的知识,如今我就列一点比较常见的限制形式,怎么样打破这些个限制,而去抓取数值。

.Basic Auth

普通会有用户权力委托的限制,会在headers的Autheration字段里要求参加;

.Referer

一般是在访问链接时,一定要带上Referer字段,服务器会施行证验,例如抓取淘宝的评价;

.User-Agent

会要求真实的设施,假如不加会用编程语言包里自有User-Agent,可以被鉴别出来;

.Cookie

普通用户在登录或是某些操作后,服务端会在回返包中里面含有Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被鉴别出来是假造请求;也有本地经过JS,依据服务端回返的某个信息施行处置生成的加密信息,设置在Cookie里边;

.Gzip

请求headers里边带了gzip,回返有时会是gzip压缩,需求解压;

.JavaScript加密操作

通常来说,在请求的数值包内部里边会含有一点被javascript施行加密限制的信息,例如新浪微博会施行SHA1和RSA加密,SHA1加密会执行两次,而后送出的password和用户名都会被加密;

.其它字段

由于http的headers可以自定义地段,所以第三方有可能会参加了一点自定义的字段名字还是字段值,这也是需求注意的。

真实的请求过程中,实际上完全不止以上这几种限制,有可能是几种限制组合在一起,譬如若是大致相似RSA加密的话,有可能先请求服务器获得Cookie,而后再携带Cookie去请求服务器拿到公钥,而后再用js施行加密,再送出数值到服务器。所以弄明白这那里面的原理,关键是需要有耐心和恒心。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    私信 提问
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    WEB前端工程师-练成

    一、HTML和CSS基础 1.1 开发工具 1.1.1 前端开发工具技巧介绍-DW篇 1.1.2 前端开发工具技巧介绍-Sublime篇 1.2 HTML和CSS基础课程 1.2.1 HTML+CSS基础课程 1.3 网页布局 1.3.1 如何用CSS进行...

    霞女
    2015/12/02
    62
    0
    爬虫系列的总结

    图片来自 unsplash 时光荏苒,四个月时间如流沙般从手心中流逝。这四个月自己算是收获颇多。因为在张哥的影响下,自己渐渐喜欢上写作。自己将所学的爬虫知识、学习心得以及如何学习分享出来。...

    猴哥Yuri
    2017/10/27
    0
    0
    买《Python从小白到大牛》专题视频课程,送配套纸质图书

    经过一年多时间的呕心沥血,Python立体化图书——《Python从小白到大牛》即将与大家见面了。所谓立体化图书包括:电子图书、视频、课件和服务等内容。 《Python从小白到大牛》纸质图书将于9...

    tony关东升
    07/23
    0
    0
    Algo-Practice: 算法实践(JavaScript & Java),排序,查找、树、两指针、动态规划等

    记录一些算法实践 目录 Java篇 一、基础算法 七种基础排序 二叉堆 K选取问题 链表判环问题 N皇后问题 两指针扫描算法举例 位运算(求首个bit1,求bit1的个数,寻找奇数项) 最小栈的实现 横纵有...

    qcer
    2017/12/20
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    新鲜出炉,2019最新大厂面试题总汇!

    在这个互联网技术快速迭代的时代,每个程序员都知道技术对于职业发展的重要性,那些技术好的程序员不仅薪资高,而且大多数集中在一线互联网企业工作,让人感觉非常高大上的同时,也想去大厂做...

    Java干货分享
    17分钟前
    2
    0
    一、什么是ActiveMQ

    首先我们应该先了解J2EE中的一个重要规范:JMS(The Java Message Service)Java消息服务。而JMS的客户端之间可以通过JMS服务进行异步的消息传输。它主要有两种模型:点对点和发布订阅模型。 ...

    watermelon11
    23分钟前
    1
    0
    课时17 第三课Spark内部原理剖析与源码阅读(五)

    为何spark shuffle比mapreduce shuffle慢? 主要是spark shuffle的shuffle read阶段还不够优秀,它是基于hashmap实现的,shuffle read会把shuffel write阶段已经排序数据给重新转成乱序的,转...

    刀锋
    40分钟前
    1
    0
    Function函数式接口

    Function函数式接口传入一个参数,返回一个值。 然后我们使用这个写个demo看看: 输出: 接口内部还有两个default方法和一个static方法,然后我们先看一下static方法 返回一个始终返回其输入...

    woshixin
    55分钟前
    1
    0
    开发者和架构师之间最大的区别是什么?

    1、开发者和架构师之间最大的区别是什么? 架构师和开发者一样,也经常写代码,简单的说,开发者和架构师之间最大的区别就是技术领导力。 软件架构师的角色需要理解最重要的架构驱动力是什么...

    James-
    今天
    2
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部