文档章节

解决PHP无法通过file_get_contents或curl采集页面内容

FeanLau
 FeanLau
发布于 2017/05/09 14:37
字数 492
阅读 84
收藏 0

在php中经常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时会返回false,但是在浏览器里打开连接地址就可以看到网页内容。

这是因为服务器上做了设置,通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送User_agent的。

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。

解决这个问题有2种方法

1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;

2、通过php的ini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);

echo file_get_contents(‘你想要采集的页面url’);

通过上面2种方法就可以让$_SERVER["HTTP_USER_AGENT"]的值不为空,就可以顺利的采集到你想要的内容。

注意:在设置user_agent的时候,最好使用浏览器的版本或者蜘蛛,像我上面设置的是火狐的,这样被采集的服务器就会正常的通过认证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的,这个问题你应该清楚吧,哈哈。如果他要是把这个也屏蔽了的话,那就是不让蜘蛛抓取页面,也无法识别用户使用的浏览器里。

© 著作权归作者所有

共有 人打赏支持
FeanLau
粉丝 3
博文 219
码字总数 117077
作品 0
浦东
程序员
php中 curl, fsockopen ,file_get_contents 三个函数 比较

赵永斌: 有些时候用filegetcontents()调用外部文件,容易超时报错。换成curl后就可以.具体原因不清楚 curl 效率比filegetcontents()和fsockopen()高一些,原因是CURL会自动对DNS信息进行缓存(...

lixiaokai2008
2013/09/26
0
8
cURL、file_get_contents、snoopy.class.php 优缺点

curl()、filegetcontents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,他们功能相当,到底有什么优缺点呢,下面逐一介绍: snoopy.class.php snoopy 是用 fsockopen 自开发的...

Junn
2013/07/29
0
0
PHP模拟登录并获取数据

cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数, 开发者可以从PHP手册中获取更多关于cURL信息。本文...

Louis_88
2015/09/19
99
0
php,关于file_get_contents和curl采集数据的区别?

各位大神好,请问一下这两者采集的区别在哪?还有就是我要采集一个动态数据. 他的网站构成是这样的:原采集部分是静态内容,他的是通过js改动的值,我用filegetcontents采集只能采集到静态的页...

ffvsnn520
2013/09/20
2K
3
提交数据的各种方式form,curl ,sockt,file_get_contents

1、手动构造http数据包实现http数据提交 这种方式一般不建议使用,除非是特别要求或必须应用时再使用,手动构造的http头数据的方式比较麻烦,而且实现起来代码也比较多.我只有在利用其他方式 实...

morebetter1
2015/08/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Linux命令备忘录: jobs 显示Linux中的任务列表及任务状态命令

jobs命令用于显示Linux中的任务列表及任务状态,包括后台运行的任务。该命令可以显示任务号及其对应的进程号。其中,任务号是以普通用户的角度进行的,而进程号则是从系统管理员的角度来看的...

开元中国2015
44分钟前
1
0
springboot Whitelabel Error Page(Not Found)解决方案

当出现上图图的错误时注意 报错信息 There was an unexpected error (type=Not Found, status=404). Not Found代表未访问到资源 解决方案:比较访问路径和代码的路径有没有写错 正确的访问路...

斩神魂
44分钟前
1
0
记一次hbase master停止服务的原因以及恢复

在Hdfs空间不足的情况下,拒绝写入,hbase会down掉。如果hdfs空间没有清理的情况下,重新启动hbase,会报splitlog失败,原因是wal日志重写过程中会写hdfs,写不进去导致的。重启不成功。 解决...

PageYi
48分钟前
1
0
如何从平面设计转行到UI设计?

时代的变迁,科技的进步,工具的发展,薪资的差距,促使许多人转行的原因,但平面与界面两者之间有着哪些的差异呢?如果,想要转行又该具备哪些条件呢? 平面、界面设计之间的差异性 平面设计...

mo311
51分钟前
4
0
线程池整理

一般在生产环境中,我们都不会直接new一个Thread,然后再去start(),因为这么做会不断频繁的创建线程,销毁线程,过大的线程会耗尽CPU和内存资源,大量的垃圾回收,也会给GC带来压力,延长GC停顿时间...

算法之名
52分钟前
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部