文档章节

用PHP做采集功能网站的思路

FeanLau
 FeanLau
发布于 2017/05/03 11:14
字数 215
阅读 12
收藏 0

1、指定一个列表页,用curl或file_get_contents将页面读取进来;
2、用正则或者XML分析DOM,获取到列表中文章的超链接,将其保存为一个任务数组;
3、遍历数组(循环),使用curl或file_get_contents将数组中的超链接指向的页面读取进来;
4、用正则或者XML分析DOM,获取到文章正文内容,将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路,有错误之处请指正。
可能需要注意的问题:如果页面超时,可以改大脚本运行超时间;为了提高效率是否要改为并发执行的curl_multi;如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。

© 著作权归作者所有

共有 人打赏支持
FeanLau
粉丝 3
博文 219
码字总数 117077
作品 0
浦东
程序员
关于PHP批量采集----采集小说站有感

概况:帮周同学做小说采集做了有一段时间了。一开始是从其它网站的页面上直接写正则去采集,然后慢慢的转为采集别人提供的API。 环境:CENTOS+NGINX+PHP5.2.17。基于JIEQI小说管理系统。 直接...

jacky_chen
2013/06/24
0
4
关于php缓存的问题!

假如说有一个a.php文件,这个程序是采集其他网站的信息,当用户访问网页的时候会用ajax触发这个php程序进行采集,但是我不想让用户每次来的时候都进行采集,规定1个小时内的内容不变,一个小...

phpnewnew
2012/10/28
139
3
使用PHP做网页采集实例过程总结

最近有个任务是需要我检查一些网站,如果纯手工检查的话,感觉既费时又无聊。所以我就想用采集。思路其实很简单,先把网站的源码采集下来,然后用正则表达式去匹配符合的链接,最后把标题和网...

章郎虫
2013/12/27
0
0
EaglePHP v1.8 更新日志

EaglePHP,是一款开源、高效、面向对象的PHP MVC开发框架,完全基于PHP5可用于开发WEB程序和服务,借鉴国外优秀框架的设计思路,分层的设计思想使独立开发成为可能,建立模型推动代码的重 用...

oschina
2012/06/10
600
0
Proxy 验证助手 - proxy-test

项目介绍 Proxy验证助手支持HTTP代理验证.做这个的工具的目的的分享免费代理的网站不少,不过好多代理都是不能用的.所以直接用这个工具查一下显示能用的保证是能用的. 软件架构 Proxy验证助手...

xiaogg
08/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

解析高可用分布式键值存储 etcd 的原理

这篇文章将会介绍 etcd 的实现原理,其中包括 Raft 协议、存储两大模块,在最后我们也会简单介绍 etcd 一些具体应用场景。 etcd 的官方将它定位成一个可信赖的分布式键值存储服务,它能够为整...

小刀爱编程
19分钟前
1
0
在ubuntun虚拟机里安装goLang语言编程环境

Go语言是谷歌2009发布的第二款开源编程语言。 Go语言专门针对多处理器系统应用程序的编程进行了优化,使用Go编译的程序可以媲美C或C++代码的速度,而且更加安全、支持并行进程。 北京时间201...

JerryWang_SAP
19分钟前
5
0
c++builder导出函数export function DLL

__stdcall __export 即可,如: ulong __stdcall __export od_disasm(char *src,ulong srcsize,ulong srcip, t_disasm *disasm,int disasmmode){ return Disasm(src,srcsiz......

simpower
21分钟前
2
0
KDC服务安装及配置

阿伦哥-
24分钟前
1
0
mybatis-plus公共字段操作以及springboot2整合mybatis-plus

1、公共实体 对于User类中有而user表中没有的属性需要加第二个注解@TableField(exist = false),表示排除User类中的属性 所有新增公共字段加注解 并指定 @TableField(value = "corp_code",fi...

glen_xu
28分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部