webrequest的timeout属性作用范围

原创
2014/07/16 10:51
阅读数 4.5K

使用c#进行抓取网页信息时,使用httpwebrequest进行抓取,通常都会自定义设置一个timeout超时值,如果不设置的话,系统默认的超时值比较高,往往长时间的等待没有意义,不如手动设置一个比较小的值,例如5秒,这样5秒内如若还连不上,则可以考虑重新建立连接或者做其他事情。

不过使用中发现一个奇怪的现象,就是对一个页面的抓取,已经超过了设置的timeout值了,既没有抛出异常也没有完成数据抓取,仍需要等待非常长的时间后才报告一个错误。仔细查看了关于 HttpWebRequest.Timeout 的解释:

Timeout 是进行后续同步请求时使用 GetResponse 方法等待响应以及 GetRequestStream 方法等待流所允许的毫秒数。 Timeout 适用于整个请求和响应,不单独对 GetRequestStream 与 GetResponse 方法调用响应。 如果资源在超时期限内未返回,请求将引发 WebException,并将 Status 属性设置为 WebExceptionStatus.Timeout。
Timeout 属性必须在 GetRequestStream 或 GetResponse 方法被调用之前设置。 在调用 GetRequestStream 或 GetResponse 方法之后更改 Timeout 属性不起任何作用
Timeout 属性对使用 BeginGetResponse 或 BeginGetRequestStream 方法生成的异步请求无效。


觉得timeout的作用域是控制与目标服务器建立连接的超时时间,也就是说,当我们和服务器能在规定的timeout时间内建立tcp连接,便不会异常,而后,页面数据的下载很慢的过程不在timeout的范围内。这就导致了该下载过程漫长而无果。为了验证这个猜想,我做了几个页面,分别在里面设置System.Threading.Thread.Sleep(n)方法来人为延时。

首先是抓取的代码:

HttpWebRequest req =(HttpWebRequest)  WebRequest.Create("http://lixin.me/t1");
            req.Timeout = 5000; //设置超时时间为5秒
            Stopwatch timer = new Stopwatch();
            timer.Start();
            HttpWebResponse resp = (HttpWebResponse)req.GetResponse();
            StreamReader reader = new StreamReader(resp.GetResponseStream());
            string data = reader.ReadToEnd();
            timer.Stop();
            textBox1.AppendText(data + "\r\n"+timer.Elapsed.TotalSeconds.ToString()+"\r\n");


其中我做了几个页面,分别是”t1″、“t2”、“t3”、“t4”。

其中t1页面直接返回文本内容,用作基础对照。

t2页面设置了一个延时,但是延时时间在超时的范围内。

t3页面设置了一个延时,但是延时时间超过抓取程序的timeout时间。

t4页面首先是先往客户端发送一部分内容,然后延时一段比timeout更长的时间,模拟出网速很慢的样子,再把剩下的字符串发送完毕。

代码如下:

public ActionResult t1()
        {
            return Content("直接返回内容。");
        }
        public ActionResult t2()
        {
            System.Threading.Thread.Sleep(3000);
            return Content("休息了3秒");
        }
        public ActionResult t3()
        {
            System.Threading.Thread.Sleep(7000);
            return Content("休息了7秒");
        }
        public ActionResult t4()
        {
            //这个是伪代码,实际使用的是 t4.aspx 写的,不是asp.net mvc
            Response.Write("hello");
            Response.Flush();
            System.Threading.Thread.Sleep(8000);
            return Content(" lixin");
        }

测试的结果是:

t1很快返回内容,且没有错误。

t2在3秒后也返回了内容,且没有错误。

t3在5秒后客户端抛出timeout的错误。

t4在8秒后返回内容,并没有出现错误。

根据测试结果,timeout设置的时间并不包括数据下载所耗费的时间。

那么要在规定的时间内完成下载数据任务否则就重新开始呢?这就得使用HttpwebRequest另一个属性值了:ReadWriteTimeout

在写入由 GetRequestStream 方法返回的流时,或在读取由 GetResponseStream 方法返回的流时,会用到 ReadWriteTimeout 属性。
具体而言,ReadWriteTimeout 属性控制 Read 方法(用来读取由 GetResponseStream 方法返回的流)和 Write 方法(用来写入由 GetRequestStream 方法返回的流)的超时。
若要指定等待请求完成的时间量,请使用 Timeout 属性。

根据文档描述,这个属性的设置就是设置读取数据流的超时时间了。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部