文档章节

python 使用 requests 库, 抓取 网站, chunk 报 IncompleteRead异常解决方案

zn123
 zn123
发布于 2017/03/27 20:00
字数 157
阅读 141
收藏 0

1. 首先在网上搜, 搜到 http://blog.csdn.net/wangzuxi/article/details/40377467  python requests接收chunked编码问题  这篇文章, 按文中所说 加断点, 发现拦截不到

2. 只能自己一点一点跟踪, 发现

requests\packages\urllib3\response.py 故障点在这
535 行 收到"" chunk 报异常

        try:
            self.chunk_left = int(line, 16) #zn123 chunk="" raise Exception
        except ValueError:
            # Invalid chunked protocol response, abort.
            self.close()
            raise httplib.IncompleteRead(line)
			

一样的问题, 对方服务器返回chunk块不标准, 不返回 0\r\n\r\n

只能修改这个库

判断一下line 是否为"", 及解决了这个bug
            

© 著作权归作者所有

zn123
粉丝 7
博文 1
码字总数 157
作品 0
东城
私信 提问
Python爬取妹子,哇!太多了,看不过来了,我一个G的硬盘要满了

淘女郎爬虫,可动态抓取淘女郎的信息和照片。 需要额外安装的第三方库 加小编Python学习群:813542856可以获取各类Python学习资料哦! requests pip install requests pymongo pip install ...

浪里小白龙q
2018/11/27
0
0
Debian pip3 ImportError: cannot import name 'IncompleteRead'错误解决

突然pip3不能正常使用了, 执行pip3 -V报错为如下: 瞬间崩溃,翻阅一些资料给出的解决方案均是 easy_install3 -U pip3 修复,试后仍然无法解决,随换另一种方法,重新安装pip3: apt-get re...

Sunki
01/24
30
0
Python 编写知乎爬虫实践

1、爬虫的基本流程 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子 URL 将种子 URL 加入任务队列 从待抓取 URL 队列中取出待抓取的 URL,解析 DNS,并且得到主机的 ip,并将 UR...

大数据之路
2012/06/16
2.3K
0
Python爬虫入门 | 2 爬取豆瓣电影信息

  这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今...

Web前端社区
2018/07/25
0
0
四行Python代码就能知道你那的天气,你敢信? - 知乎

今天给大家带来的Python实战项目是四行Python代码获取所在城市的天气预报,我们隐隐听到唏嘘声,不信四行Python代码可以获取是吗?那我们一起来看看: 使用Python获取天气预报,想想是件很简单...

Python头条
10/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

PCB设计-Allegro软件入门系列-铺铜操作(下)

铺铜是PCB很常见的操作,PCB的敷铜一般都是覆地铜,增大地线面积,有利于地线阻抗降低,使电源和信号传输稳定,在高频的信号线附近敷铜,可大大减少电磁辐射干扰,起屏蔽作用。 本讲讲解啊一...

demyar
10分钟前
1
0
如何通过WASI SDK 在Linux上编译ZXing C++

Mozilla在今年三月份的时候公布了WASI。WASI的目标就是让WebAssembly在任何地方都可以运行,而不仅仅像现在这样只能运行在Node.js和Web浏览器中。WASI目前依然处于初级阶段,这篇文章分享下如...

yushulx
11分钟前
1
0
.Net界面开发神器—DevExpress官方汉化包免费下载!还在等什么?

点击获取DevExpress v19.1.7新版试用下载 DevExpress Localization Service允许您创建一组自定义的附属程序集,要将语言包添加到程序集中,请查看本文中为大家列出的对应版本的汉化包,下载并...

FILA6666
12分钟前
2
0
php生成二维码

        header('Content-Type: image/png');        //清除缓冲区,防止之前面不知道的情况下被加头部信息导致不显示图片内容        ob_clean();        $...

横着走的螃蟹
17分钟前
2
0
伪类和伪元素

伪类和伪元素 伪类和伪元素,对于绝大多数同学来说,都是耳熟能详的名字,但确实又有很多人搞不清楚它们之间的区别,以致于混淆概念。而当概念都混淆的时候,也往往意味着你不会经常使用它,...

不负好时光
19分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部