文档章节

curl只能抓取页面的部分内容的原因

fzxu_05
 fzxu_05
发布于 2014/07/09 15:41
字数 777
阅读 3.9K
收藏 2

3 月,跳不动了?>>>



核心提示:先列出 HessianPHP 的错误提示: CURL transport error: transfer closed with outstanding read data remaining 基础知识背景: 1)“Expect: 100-continue”的来龙去脉: HTTP/1.1 协议里设计100 (Continue) HTTP 状态码的的目的是,在客 ...      

先列出 HessianPHP 的错误提示:

CURL transport error: transfer closed with outstanding read data remaining


基础知识背景:

1)“Expect: 100-continue”的来龙去脉:  HTTP/1.1 协议里设计100 (Continue) HTTP 状态码的的目的是,在客户端发送 Request Message 之前,HTTP/1.1 协议允许客户端先判定服务器是否愿意接受客户端发来的消息主体(基于 Request Headers)。  即,Client 和 Server 在 Post (较大)数据之前,允许双方“握手”,如果匹配上了,Client 才开始发送(较大)数据。  这么做的原因是,如果客户端直接发送请求数据,但是服务器又将该请求拒绝的话,这种行为将带来很大的资源开销。  协议对 HTTP/1.1 clients 的要求是:

如果 client 预期等待“100-continue”的应答,那么它发的请求必须包含一个 " Expect: 100-continue" 的头域!

2)libcurl 发送大于1024字节数据时启用“Expect:100-continue‘特性:

 这也就是 Laruence 在 2011 年撰文所写的:  内容来自17jquery

在使用 curl 做 POST 的时候,当要 POST 的数据大于 1024 字节的时候,curl 并不会直接就发起 POST 请求,而是会分为两步: 1. 发送一个请求,包含一个 "Expect: 100-continue" 头域,询问 Server 是否愿意接收数据; 2. 接收到 Server 返回的 100-continue 应答以后,才把数据 POST 给 Server; 这是 libcurl 的行为。

一起jquery,17jquery

zxgfa 在 2012年补充说:

第一,libcurl 在发送大于 1024 字节的 POST 请求时采用了这种方法,但是相对的,它会引起请求延迟的加大。 第二,并不是所有的 web server 都能正确处理并应答“100-continue”,比如 lighttpd,就会返回417” Expectation Failed “,造成请求逻辑出错。(郑昀注1:lighttpd 1.4 版本有此严重问题,于1.5版本修复。 郑昀注2:Resin 于 3.0.5 版本增加了对 Expect: 100-continue 的支持。)

3)PHP Curl-library 可以主动封禁此特性:  有人在PHP手册::curl_setopt下留言说:  PHP curl 遵从 libcurl 的特性。由于不是所有 web servers 都支持这个特性,所以会产生各种各样的错误。如果你遇到了,可以用下面的命令封禁"Expect"头域: <?php

curl_setopt($ch,CURLOPT_HTTPHEADER, array('Expect:'));
?>
 pooy示范代码如下所示:

内容来自17jquery

图1 You can convince PHP's curl backend to stop doing the 100-continue-thing by setting an explicit request header


其他知识背景:

  • 根据HessianTransport 代码所述,”Hessian request using the CURL library“。


问题现象:

通信协议是 Hessian。 调用接口时所传参数在某种极端条件下, POST 的数据长度超过 1024 字节,hessian 报错“CURL transport error: transfer closed with outstanding read data remaining”。

解决:修改hessian中 CURLOPT 项: CURLOPT_HTTPHEADER => array("Content-Type: application/binary") 改为 CURLOPT_HTTPHEADER => array("Content-Type: application/binary","Expect:")


© 著作权归作者所有

fzxu_05
粉丝 43
博文 165
码字总数 84201
作品 0
朝阳
程序员
私信 提问
加载中

评论(0)

curl抓取页面的时候只能抓取一部分

curl抓取页面的时候在我的主机上只能抓取一部分, 在公司的测试机上可以顺利抓取全部,这是啥原因呢 ? 当然这两台主机配置差距有点大,同时要抓取的页面有点大。

fzxu_05
2014/07/11
655
1
PHP模拟登录并获取数据

cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数, 开发者可以从PHP手册中获取更多关于cURL信息。本文...

Louis_88
2015/09/19
174
0
php curl 的几个常用实例

我用php ,curl主要是抓取数据,当然我们可以用其他的方法来抓取,比如fsockopen,filegetcontents等。但是只能抓那些能直接访问的页面,如果要抓取有页面访问控制的页面,或者是登录以后的页...

lincoln.yu
2013/07/25
319
1
PHP爬虫:百万级别知乎用户数据爬取与分析

这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu; 安装PHP5.6或以上版本; 安装MySQL5.5或以上版本; 安装cur...

snowing1990
2016/04/06
112
0
PHP的curl常用的5个例子

PHP的curl常用的5个例子 1,抓取无访问控制文件 <?php 2,使用代理进行抓取 为什么要使用代理进行抓取呢?以google为例吧,如果去抓google的数据,短时间内抓的很频繁的话,你就抓取不到了。...

Yomut
2016/07/28
20
0

没有更多内容

加载失败,请刷新页面

加载更多

Scala的运算符

在Scala中运算符的表示法不局限于字符, 中缀运算符可以是任何方法接受参数的方法 前缀运算符放在值的前面,只能是 + - ! ~ 四者之一, 方法名为unary_*(*为运算符) 后缀运算符是任何不接受参...

dreamness
16分钟前
11
0
GeJJSON

根据GeoJSON规范(RFC 7946):GeoJSON是一种对各种地理数据结构进行编码的格式。 GeoJSON对象可以表示几何、特征或者特征集合。GeoJSON支持下面几何类型:点、线、面、多点、多线、多面和几...

东东笔记
22分钟前
9
0
读写接口

针对一些输入/输出的场景,一般可能会涉及到读/写操作。比如,对一段字符串进行gzip压缩,或者解压缩,golang下主要通过两个接口来实现: 读的接口声明如下: type Reader interface {R...

道道法
昨天
15
0
mysql 运维命令

数据库备份导入 mysqldump -u root -p main_3_2_0 > /main_3_2_0.sqluse main_3_2_0source /main_3_2_0.sql #查询正在执行的sql show full processlist# 使用 kill id 来杀死进......

jxlgzwh
昨天
17
0
简易laravel路由权限开关(附黑名单防刷)

背景 : 今天开始这个版本的项目开发的时候,有一部分是优化系统的功能结构,其中就包括这个路由权限控制 (原本的意思是针对几个主要功能模块,做一个开关,以备线上可以做一些应急处理,后面...

冻结not
昨天
13
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部