爬虫搜索基础篇(四)
爬虫搜索基础篇(四)
张安懿 发表于2年前
爬虫搜索基础篇(四)
  • 发表于 2年前
  • 阅读 86
  • 收藏 6
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要: 继续学习爬虫基础知识

上面所说所讲的都是一点的基础的知识,如今我就列一点比较常见的限制形式,怎么样打破这些个限制,而去抓取数值。

.Basic Auth

普通会有用户权力委托的限制,会在headers的Autheration字段里要求参加;

.Referer

一般是在访问链接时,一定要带上Referer字段,服务器会施行证验,例如抓取淘宝的评价;

.User-Agent

会要求真实的设施,假如不加会用编程语言包里自有User-Agent,可以被鉴别出来;

.Cookie

普通用户在登录或是某些操作后,服务端会在回返包中里面含有Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被鉴别出来是假造请求;也有本地经过JS,依据服务端回返的某个信息施行处置生成的加密信息,设置在Cookie里边;

.Gzip

请求headers里边带了gzip,回返有时会是gzip压缩,需求解压;

.JavaScript加密操作

通常来说,在请求的数值包内部里边会含有一点被javascript施行加密限制的信息,例如新浪微博会施行SHA1和RSA加密,SHA1加密会执行两次,而后送出的password和用户名都会被加密;

.其它字段

由于http的headers可以自定义地段,所以第三方有可能会参加了一点自定义的字段名字还是字段值,这也是需求注意的。

真实的请求过程中,实际上完全不止以上这几种限制,有可能是几种限制组合在一起,譬如若是大致相似RSA加密的话,有可能先请求服务器获得Cookie,而后再携带Cookie去请求服务器拿到公钥,而后再用js施行加密,再送出数值到服务器。所以弄明白这那里面的原理,关键是需要有耐心和恒心。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    共有 人打赏支持
    粉丝 2
    博文 28
    码字总数 18781
    ×
    张安懿
    如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
    * 金额(元)
    ¥1 ¥5 ¥10 ¥20 其他金额
    打赏人
    留言
    * 支付类型
    微信扫码支付
    打赏金额:
    已支付成功
    打赏金额: