文档章节

cURL、file_get_contents、snoopy.class.php 优缺点

Junn
 Junn
发布于 2013/07/29 01:14
字数 622
阅读 2110
收藏 10

curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,他们功能相当,到底有什么优缺点呢,下面逐一介绍:

snoopy.class.php

snoopy 是用 fsockopen 自开发的一个类,效率比较高且不需要服务器特定配置支持,在普通虚拟主机中即可使用,但是经常出问题。官方网址:http://sourceforge.net/projects

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。
Snoopy的特点:
1、抓取网页的内容 fetch
2、抓取网页的文本内容 (去除HTML标签) fetchtext
3、抓取网页的链接,表单 fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码验证
6、支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7、支持浏览器重定向,并能控制重定向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、提交数据并且获取返回值
10、支持跟踪HTML框架
11、支持重定向的时候传递cookies
要求php4以上就可以了,由于本身是php一个类,无需扩支持,服务器不支持curl时候的最好选择。

file_get_contents()

file_get_contents 是 fsockopen 功能的简单打包,效率稍低些,但是抓取成功率很高,所以在 snoopy 出问题的时候我一般那他来。5.0.0 添加了对 context 的支持,有了context,他也可以发送 header 信息,自定义用户 agent, referer, cookies 都不在话下。5.1.0 添加了 offset 和 maxlen 参数,可以只读文件的一部分内容。

curl()

功能最强大,几乎可以模拟浏览器的各个方面,几乎可以以假乱真。效率也很高,支持多线程,不过需要开启下 curl 扩展。

cURL是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP、FTP、TELNET等。PHP也支持cURL库,我们常常用来远程页面抓取和采集。

一些CMS会使用curl函数,这就需要在服务器开启CURL扩展,下面介绍具体的方法:

1、将PHP的ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录中。

2、将php.ini中的
;extension=php_curl.dll 前面的分号去掉

3、重启IIS或Apache

4、测试代码

<?php
    //初始化
    $ch = curl_init();
    //设置选项,包括URL
    curl_setopt($ch,CURLOPT_URL,"www.abc.net");
    curl_setopt($ch,CURLOPT_HEADER,1);
    curl_exec($ch);
    curl_close($ch);
?>

© 著作权归作者所有

共有 人打赏支持
Junn
粉丝 145
博文 412
码字总数 288918
作品 0
海淀
高级程序员
私信 提问
php模拟登陆的两种实现方法分析

本文实例分析了php模拟登陆的实现方法。分享给大家供大家参考。具体分析如下: php模拟登陆的实现方法,这里分别列举两种方法实现模拟登陆人人网。具体实例代码如下: 1)使用snoopy模拟登陆...

开元中国2015
2015/04/28
361
1
php---需要判断远程URL是否有效

需要判断远程URL是否有效,远程url包括远程图片,网页,视频等等元素 解决办法: 使用PHP解决 使用filegetcontents函数,不过优缺点如果url无法访问,会出现终止程序问题 使用curl返回,然后...

durban
2012/04/01
0
0
淘宝api 处理对象和数组用到的自定义函数 以及 开发能用到的方法

function getXmlData ($strXml) { $pos1 = strpos($strXml, 'xml'); if ($pos1) { echo 'sddfdsf'; $xmlCode=simplexmlloadstring($strXml,'SimpleXMLElement', LIBXML_NOCDATA); $arrayCode......

李佳顺
2012/09/29
0
0
php中 curl, fsockopen ,file_get_contents 三个函数 比较

赵永斌: 有些时候用filegetcontents()调用外部文件,容易超时报错。换成curl后就可以.具体原因不清楚 curl 效率比filegetcontents()和fsockopen()高一些,原因是CURL会自动对DNS信息进行缓存(...

lixiaokai2008
2013/09/26
0
8
php下curl与file_get_contents性能对比

前言 php站点没什么访问量,但是负载又出奇的高,反馈给程序员一般就一个结果,代码没有问题,检查一下服务器是不是正常的,有些人就不停的处在扯皮时期了,何不查查问题. 好吧,我这有一例,...

小运
2013/08/28
0
1

没有更多内容

加载失败,请刷新页面

加载更多

安卓代码混淆

Proguard是安卓提供的方便开发者对代码和apk进行保护和精简的工具,可在SDK/tools文件夹下找到。 proguard的作用 : 1,代码混淆 2,精简代码,删掉没有用到的代码,减小apk的体积。 使用场景...

whoisliang
6分钟前
0
0
配置Tomcat虚拟主机

12月13日任务 16.4 配置Tomcat监听80端口 16.5/16.6/16.7 配置Tomcat虚拟主机 16.8 Tomcat日志 配置tomcat监听80端口 默认tomcat监听的是8080端口,如果想直接输入ip就访问到网页,就需要进行...

robertt15
12分钟前
1
0
emqtt Qos 0, 1, 2 图解

SimonAt
12分钟前
0
0
基于vue2定义自己的图表echart组件

先安装echarts cnpm i echarts -S,然后定义父组件 <template> <div> <echarts :option="echartOpion"></echarts> </div></template><script> import echarts from './e......

莫沫达
19分钟前
1
0
详解CSS的Flex布局

本文由云+社区发表 Flex是Flexible Box 的缩写,意为"弹性布局",是CSS3的一种布局模式。通过Flex布局,可以很优雅地解决很多CSS布局的问题。下面会分别介绍容器的6个属性和项目的6个属性。每...

腾讯云加社区
31分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部