文档章节

PHP中采集网页信息的几种方式

 景云之应
发布于 2016/09/17 11:18
字数 216
阅读 43
收藏 0

第一种,通过file_get_contents()函数获取网页内容,使用此方法,需在PHP的配置文件php.ini中将allow_url_fopen = On,user_agent="PHP",如若会产生错误,可通过ini_set()设置代理,或直接在配置文件中修改。此外还有一种隐蔽的错误,并不是你自己代码的问题,如你要获取20张图片,但是PHP报错“HTTP request failed! HTTP/1.1 404 Not Found”,数量为3次,此时是网站上没有相应的资源,在file_get_contents()函数前加错误抑制符“@”即可!@file_get_contents($val); 示例代码:

foreach($temp[2] as $key=>$val){
				$fileName = './public/img/'.time().'-'.rand(1000, 9999).'.jpg';

				ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;)'); 
				$img = @file_get_contents($val);
				file_put_contents($fileName, $img);
			}

© 著作权归作者所有

粉丝 0
博文 25
码字总数 4468
作品 0
海淀
高级程序员
私信 提问
网络数据采集简介 001

网络数据采集: 网络数据采集又称数据挖掘或数据爬取,是一种通过多种手段手机网络数据的方式,不仅仅只是通过API交互或与浏览器交互的方式。通常的方式是写一个自动化程序向网络服务器请求数...

clgo
2016/05/06
51
0
《CURL技术知识教程》系列分享专栏

《CURL技术知识教程》已整理成PDF文档,点击可直接下载至本地查阅 https://www.webfalse.com/read/201737.html 文章 PHP采集相关教程之一 CURL函数库 php中通过curl模拟登陆discuz论坛的实现...

开元中国2015
2018/11/06
51
0
基于机器学习的WebShell检测方法与实现(上)

  一、概述   Webshell是攻击者使用的恶意脚本,其目的是升级和维护对已经受到攻击的WEB应用程序的持久访问。Webshell本身不能攻击或利用远程漏洞,因此它始终是攻击的第二步。   攻击...

FreeBuf
2018/08/16
0
0
挑战大家的算法:超大集合数据的快速查找算法,web爬虫url采集过滤算法

Web信息的采集,通常是利用爬虫等工具去遍历万维网,把万维网看做是一个以网页为节点, 网页间链接为边的超大规模有向图,然后利用图的遍历算法对连接url进行遍历采集, 在遍历过程中,需要判...

山哥
2010/08/18
3.6K
11
前嗅ForeSpider教程:如何创建新任务

一,创建新任务操作步骤: 1.添加新任务 点击任务列表右侧,新建任务文件。 【添加任务】 此时会出现一个弹框,可以在弹框中填写采集地址,修改任务名称,以及选择是否需要登录/关键词采集。...

forespider
02/15
3
0

没有更多内容

加载失败,请刷新页面

加载更多

centos7 安装 mysql5.7 版本(全)

centos 安装 版本说明 :centos7,mysql5.7 ,不是 centos7 可能有些命令不兼容 安装 mysql-server # 下载并安装 mysql yum wget -i -c http://dev.mysql.com/get/mysql57-community-relea......

sanri1993
36分钟前
4
0
Spring3.x升级到Spring4.x-5.x时关于MappingJacksonHttpMessageConverter的报错问题

在Spring4.x或者以上的版本强使用(不然会报错): org.springframework.http.converter.json.MappingJackson2HttpMessageConverter 如果是Spring4.0获者以下的版本可以使用MappingJacksonH...

code-ortaerc
39分钟前
4
0
OSG 渲染状态污染到其它节点怎么解决?

在根节点补上初始状态

洛克人杰洛
41分钟前
4
0
grid 布局 设置行列间距

本文转载于:专业的前端网站➪grid 布局 设置行列间距 <!DOCTYPE html><html lang="zh"> <head> <meta charset="UTF-8" /> <meta name="viewport" content="widt......

前端老手
53分钟前
4
0
spring-data-elasticsearch 和 Jackson 配合使用的bug

下面先简单描述项目。 项目依赖: dependencies { implementation group: 'org.springframework.boot', name: 'spring-boot-starter-data-elasticsearch', version: '2.1.0.RELEASE'......

Landas
54分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部