文档章节

cURL、file_get_contents、snoopy.class.php 优缺点

Junn
 Junn
发布于 2013/07/29 01:14
字数 622
阅读 2056
收藏 10

curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,他们功能相当,到底有什么优缺点呢,下面逐一介绍:

snoopy.class.php

snoopy 是用 fsockopen 自开发的一个类,效率比较高且不需要服务器特定配置支持,在普通虚拟主机中即可使用,但是经常出问题。官方网址:http://sourceforge.net/projects

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。
Snoopy的特点:
1、抓取网页的内容 fetch
2、抓取网页的文本内容 (去除HTML标签) fetchtext
3、抓取网页的链接,表单 fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码验证
6、支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7、支持浏览器重定向,并能控制重定向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、提交数据并且获取返回值
10、支持跟踪HTML框架
11、支持重定向的时候传递cookies
要求php4以上就可以了,由于本身是php一个类,无需扩支持,服务器不支持curl时候的最好选择。

file_get_contents()

file_get_contents 是 fsockopen 功能的简单打包,效率稍低些,但是抓取成功率很高,所以在 snoopy 出问题的时候我一般那他来。5.0.0 添加了对 context 的支持,有了context,他也可以发送 header 信息,自定义用户 agent, referer, cookies 都不在话下。5.1.0 添加了 offset 和 maxlen 参数,可以只读文件的一部分内容。

curl()

功能最强大,几乎可以模拟浏览器的各个方面,几乎可以以假乱真。效率也很高,支持多线程,不过需要开启下 curl 扩展。

cURL是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP、FTP、TELNET等。PHP也支持cURL库,我们常常用来远程页面抓取和采集。

一些CMS会使用curl函数,这就需要在服务器开启CURL扩展,下面介绍具体的方法:

1、将PHP的ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录中。

2、将php.ini中的
;extension=php_curl.dll 前面的分号去掉

3、重启IIS或Apache

4、测试代码

<?php
    //初始化
    $ch = curl_init();
    //设置选项,包括URL
    curl_setopt($ch,CURLOPT_URL,"www.abc.net");
    curl_setopt($ch,CURLOPT_HEADER,1);
    curl_exec($ch);
    curl_close($ch);
?>

© 著作权归作者所有

共有 人打赏支持
Junn
粉丝 145
博文 412
码字总数 288918
作品 0
海淀
高级程序员
php模拟登陆的两种实现方法分析

本文实例分析了php模拟登陆的实现方法。分享给大家供大家参考。具体分析如下: php模拟登陆的实现方法,这里分别列举两种方法实现模拟登陆人人网。具体实例代码如下: 1)使用snoopy模拟登陆...

开元中国2015
2015/04/28
361
1
php---需要判断远程URL是否有效

需要判断远程URL是否有效,远程url包括远程图片,网页,视频等等元素 解决办法: 使用PHP解决 使用filegetcontents函数,不过优缺点如果url无法访问,会出现终止程序问题 使用curl返回,然后...

durban
2012/04/01
0
0
php中 curl, fsockopen ,file_get_contents 三个函数 比较

赵永斌: 有些时候用filegetcontents()调用外部文件,容易超时报错。换成curl后就可以.具体原因不清楚 curl 效率比filegetcontents()和fsockopen()高一些,原因是CURL会自动对DNS信息进行缓存(...

lixiaokai2008
2013/09/26
0
8
php下curl与file_get_contents性能对比

前言 php站点没什么访问量,但是负载又出奇的高,反馈给程序员一般就一个结果,代码没有问题,检查一下服务器是不是正常的,有些人就不停的处在扯皮时期了,何不查查问题. 好吧,我这有一例,...

小运
2013/08/28
0
1
淘宝api 处理对象和数组用到的自定义函数 以及 开发能用到的方法

function getXmlData ($strXml) { $pos1 = strpos($strXml, 'xml'); if ($pos1) { echo 'sddfdsf'; $xmlCode=simplexmlloadstring($strXml,'SimpleXMLElement', LIBXML_NOCDATA); $arrayCode......

李佳顺
2012/09/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

DES/3DES(TripleDES)加密、解密测试数据

以下结果经 PHP+openssl及VB.NET验证,ECB模式。 PHP 7.0.10 (cli) (built: Aug 18 2016 09:48:53) ( ZTS ) OpenSSL Library Version: OpenSSL 1.0.1t 3 May 2016 VB.net 2003 ****** DES(S......

SamXIAO
31分钟前
1
2
Java11的新特性

Java语言特性系列 Java5的新特性 Java6的新特性 Java7的新特性 Java8的新特性 Java9的新特性 Java10的新特性 Java11的新特性 Java12的新特性 序 本文主要讲述一下Java11的新特性 版本号 java...

go4it
32分钟前
3
0
Maven常用命令及相关笔记

Maven常用命令 dos指令 4. 编译源代码: mvn compile 6. 运行测试: mvn test 8. 打包: mvn package 9. 在本地Repository中安装jar: mvn install 10. 清除产生的项目: mvn clean 4. 运行项...

颖伙虫
39分钟前
1
0
swagger2.2.2 与 spring cloud feign冲突 导致服务请求报空

swagger2.2.2 与 spring cloud feign冲突 Java代码 Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'com.choosefine.web.console.ar......

泉天下
42分钟前
1
0
设计模式之 明确责任 观察者模式 状态模式 责任链模式

观察者模式是任务分发的一种模式。 如果认为我们设计的系统的各个模块(或子系统)的最终目的是完成共同任务,那么这个任务如何分配到多个模块的就是我们遇到的第一个问题。简单设计场合我们...

backbye
46分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部