文档章节

爬虫搜索基础篇(四)

张安懿
 张安懿
发布于 2015/11/25 16:48
字数 540
阅读 101
收藏 6

上面所说所讲的都是一点的基础的知识,如今我就列一点比较常见的限制形式,怎么样打破这些个限制,而去抓取数值。

.Basic Auth

普通会有用户权力委托的限制,会在headers的Autheration字段里要求参加;

.Referer

一般是在访问链接时,一定要带上Referer字段,服务器会施行证验,例如抓取淘宝的评价;

.User-Agent

会要求真实的设施,假如不加会用编程语言包里自有User-Agent,可以被鉴别出来;

.Cookie

普通用户在登录或是某些操作后,服务端会在回返包中里面含有Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被鉴别出来是假造请求;也有本地经过JS,依据服务端回返的某个信息施行处置生成的加密信息,设置在Cookie里边;

.Gzip

请求headers里边带了gzip,回返有时会是gzip压缩,需求解压;

.JavaScript加密操作

通常来说,在请求的数值包内部里边会含有一点被javascript施行加密限制的信息,例如新浪微博会施行SHA1和RSA加密,SHA1加密会执行两次,而后送出的password和用户名都会被加密;

.其它字段

由于http的headers可以自定义地段,所以第三方有可能会参加了一点自定义的字段名字还是字段值,这也是需求注意的。

真实的请求过程中,实际上完全不止以上这几种限制,有可能是几种限制组合在一起,譬如若是大致相似RSA加密的话,有可能先请求服务器获得Cookie,而后再携带Cookie去请求服务器拿到公钥,而后再用js施行加密,再送出数值到服务器。所以弄明白这那里面的原理,关键是需要有耐心和恒心。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    爬虫系列的总结

    图片来自 unsplash 时光荏苒,四个月时间如流沙般从手心中流逝。这四个月自己算是收获颇多。因为在张哥的影响下,自己渐渐喜欢上写作。自己将所学的爬虫知识、学习心得以及如何学习分享出来。...

    猴哥Yuri
    2017/10/27
    0
    0
    零基础爬虫学习全记录2:今日头条指定搜索内容下的所有图集图片保存——图片采集小程序

    零基础爬虫学习全记录 无论仅仅有多少基础,都不该在徘徊和犹豫中浪费! 只有放弃幻想,用行动促进思考,才能最快找到想要的路。 背景: 没有任何编程基础的金融学专业学生,C语言都没接触过...

    无小意丶
    2017/10/27
    0
    0
    python-59: 基础篇完

    经历了这漫长的时间,我们的基础篇终于讲完了,来说几个问题 1. 基础篇主要讲了什么 基础篇我们主要是使用urllib,urllib2和cookielib这几个库来讲解爬虫的几个实例,为什么要选择这几个库呢?...

    达岭凹老大
    2015/12/15
    96
    0
    python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数...

    小七奇奇
    2017/11/13
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    20181018 上课截图

    ![](https://oscimg.oschina.net/oscnet/49f66c08ab8c59a21a3b98889d961672f30.jpg) ![](https://oscimg.oschina.net/oscnet/a61bc2d618b403650dbd4bf68a671fabecb.jpg)......

    小丑鱼00
    今天
    1
    0
    WinDbg

    参考来自:http://www.cnit.net.cn/?id=225 SRV*C:\Symbols*http://msdl.microsoft.com/download/symbols ctrl + d to open dump_file Microsoft (R) Windows Debugger Version 6.12.0002.633......

    xueyuse0012
    今天
    2
    0
    OSChina 周五乱弹 —— 想不想把92年的萝莉退货

    Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @罗马的王:分享松澤由美的单曲《地球ぎ》 很久没看圣斗士星矢了 《地球ぎ》- 松澤由美 手机党少年们想听歌,请使劲儿戳(这里) @开源中国首...

    小小编辑
    今天
    17
    2
    springBoot条件配置

    本篇介绍下,如何通过springboot的条件配置,控制Bean的创建 介绍下开发环境 JDK版本1.8 springboot版本是1.5.2 开发工具为 intellij idea(2018.2) 开发环境为 15款MacBook Pro 前言 很多时候,...

    贺小五
    今天
    1
    0
    javascript source map 的使用

    之前发现VS.NET会为压缩的js文添加一个与文件名同名的.map文件,一直没有搞懂他是用来做什么的,直接删除掉运行时浏览器又会报错,后来google了一直才真正搞懂了这个小小的map文件背后的巨大...

    粒子数反转
    昨天
    1
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部