文档章节

http状态码521——记一次网页爬取

 向过去告别
发布于 2016/04/07 19:40
字数 664
阅读 2001
收藏 0

前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量、评价、评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了。

在本地运行数据爬取任务,发现确实有个应用市场报521错误,这个错误没见过啊,开始网上各种搜,发现别人说的貌似跟我的情况不一样,没办法只能自己摸索了。

于是把资源路径直接拿出来在浏览器里面访问,居然没问题!我想是不是刚才对方的服务器挂了这会又好了,立马又把爬虫运行了一遍,结果发现是自己意淫了。。。没办法,只能F12打开开发者工具——网络,然后重新访问,http状态码200,没什么问题啊,一切正常,我就纳闷了,为什么浏览器正常、爬虫却不行,难道是服务端做了什么针对非浏览器访问的限制,顿时眼前一亮,脑海中蹦出一个关键字“cookies",然后将请求header里的参数拿来各种试,没一点效果,感觉进入了死胡同,怎么也找不着出路。。。

自我安慰着,换个浏览器试试吧。。。这一换果然换出了问题,让我发现了浏览器地址栏貌似有变化,赶紧打开fiddler,清空缓存重新访问,哈哈,终于让我逮到了,它居然请求了3次,第二次还在地址后面加上了一个参数!!第一次状态521,第二次状态302,第三次状态200并成功返回了页面,到此感觉终于有了点眉目。

于是开始分析每一次的请求,第一次访问地址没做任何修饰先排除,但是第二次请求的参数从哪来的呢(本人是做后端开发,对前端一知半解)?开始在第一次返回的header里面各种找,没发现异常,这怎么可能!想不通啊!点着点着发现一段js脚本,还是各种字符各种运算符杂乱无章,难道是这段脚本有问题?于是将此脚本摘出,模拟运行,终于得到了跳转链接!

此时所有的问题都迎刃而解。。。

 

 

 

© 著作权归作者所有

粉丝 0
博文 1
码字总数 664
作品 0
深圳
私信 提问
WebCollector 2.x教程列表

WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector WebCollector 2.x教程列表 WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫 JAVA爬虫WebCollector 2.x入......

MiniBu
2016/08/26
706
0
基于 Java 的开源网络爬虫框架 - WebCollector

爬虫简介: WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 ...

CrawlScript
2014/07/20
189.4K
38
python网络爬虫——第一节

不知道大家知不知道爬虫,相信很多人可能听过,但没有了解过,今天我就跟大家聊聊爬虫那些事。 听到爬虫,大家第一反应是什么呢?前不久,我跟小晨说,我学在爬虫,小晨特别可爱的跟我说会爬...

南柯一梦希
2018/08/08
0
0
Python 编写知乎爬虫实践

1、爬虫的基本流程 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子 URL 将种子 URL 加入任务队列 从待抓取 URL 队列中取出待抓取的 URL,解析 DNS,并且得到主机的 ip,并将 UR...

大数据之路
2012/06/16
1K
0
一个月入门Python爬虫,快速获取大规模数据

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索...

Python开发者
2018/04/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
今天
13
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
今天
7
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
今天
10
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
今天
12
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部