文档章节

用PHP做采集功能网站的思路

FeanLau
 FeanLau
发布于 2017/05/03 11:14
字数 215
阅读 12
收藏 0

1、指定一个列表页,用curl或file_get_contents将页面读取进来;
2、用正则或者XML分析DOM,获取到列表中文章的超链接,将其保存为一个任务数组;
3、遍历数组(循环),使用curl或file_get_contents将数组中的超链接指向的页面读取进来;
4、用正则或者XML分析DOM,获取到文章正文内容,将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路,有错误之处请指正。
可能需要注意的问题:如果页面超时,可以改大脚本运行超时间;为了提高效率是否要改为并发执行的curl_multi;如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。

© 著作权归作者所有

共有 人打赏支持
FeanLau
粉丝 3
博文 219
码字总数 130409
作品 0
浦东
程序员
关于PHP批量采集----采集小说站有感

概况:帮周同学做小说采集做了有一段时间了。一开始是从其它网站的页面上直接写正则去采集,然后慢慢的转为采集别人提供的API。 环境:CENTOS+NGINX+PHP5.2.17。基于JIEQI小说管理系统。 直接...

jacky_chen
2013/06/24
0
4
关于php缓存的问题!

假如说有一个a.php文件,这个程序是采集其他网站的信息,当用户访问网页的时候会用ajax触发这个php程序进行采集,但是我不想让用户每次来的时候都进行采集,规定1个小时内的内容不变,一个小...

phpnewnew
2012/10/28
139
3
使用PHP做网页采集实例过程总结

最近有个任务是需要我检查一些网站,如果纯手工检查的话,感觉既费时又无聊。所以我就想用采集。思路其实很简单,先把网站的源码采集下来,然后用正则表达式去匹配符合的链接,最后把标题和网...

章郎虫
2013/12/27
0
0
EaglePHP v1.8 更新日志

EaglePHP,是一款开源、高效、面向对象的PHP MVC开发框架,完全基于PHP5可用于开发WEB程序和服务,借鉴国外优秀框架的设计思路,分层的设计思想使独立开发成为可能,建立模型推动代码的重 用...

oschina
2012/06/10
600
0
php获取网站来访者qq

看到thinkphp上有个同行开发了一套获取网站来访者qq,问过他,但是他不肯说怎么实现的, 各种百度,谷歌都没有解决办法, 客户在他的网站注册或得一段js代码,放入自己的网站中,有人浏览该网站就会...

zhangya4548
2013/12/30
756
3

没有更多内容

加载失败,请刷新页面

加载更多

下一页

【七】组合Action

本章描述了常用定义Action的方法。 自定义action builders 我们在action一章已经看过如何声明一个action——有request parameter、无request parameter、有body parser等等。你可以在 asynch...

Landas
38分钟前
0
0
Spring Boot实战之基础回顾

本文作者: 吴伟祥 本文链接: https://wuweixiang.cn/2018/08/21/Spring-Boot实战之基础回顾/ 版权声明: 本博客所有文章除特别声明外均为原创,采用CC BY-NC-SA 4.0 许可协议。转载请在文章开...

吴伟祥
38分钟前
0
0
OAuth认证开发

提示: 以下测试是基于项目安装成功,初始化数据库(initial_db.ddl, oauth.ddl, initial_data.ddl)后的测试, 也可在页面上点击"client_details"菜单里进行测试 方式1:基于浏览器 (grant_type=...

舒文joven
47分钟前
1
0
第二章-对象及变量的并发访问-第二篇

锁对象的改变 请阅读如下代码 public class MainClass { private String lock = "123"; public void printStringB() { try { synchronized (lock) { ......

简心
51分钟前
0
0
日志中记录代理IP以及真实客户端、apache只记录指定URI的日志

apache 日志中记录代理IP以及真实客户端 默认情况下log日志格式为: LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i"" combined 其中%h 是记录访问者的IP,如果在web的前...

李超小牛子
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部