文档章节

PHP使用QPM实现多进程并行任务处理程序

AlexQ
 AlexQ
发布于 2015/03/10 21:32
字数 833
阅读 2939
收藏 120

考虑用PHP实现以下场景: 有一个抓站的URL列表保存在队列里,后台程序读取这个队列,然后转交给子进程去抓取HTML存放到文件里。 为了提高效率,允许多任务并行执行,但为了避免机器负载过高,限制了最大的并行任务数(为了测试方便,我们把这个数设为3),当队列中取到 END标记时,程序结束运行。

这个场景用QPM的Supervisor::taskFactoryMode()实现,非常简单。

QPM全名是 Quick Process Management Module for PHP. PHP 是强大的web开发语言,以至于大家常常忘记PHP 可以用来开发健壮的命令行(CLI)程序以至于daemon程序。 而编写daemon程序免不了与各种进程管理打交道。QPM正式为简化进程管理而开发的类库。QPM的项目地址是:https://github.com/Comos/qpm

为了,简化测试环境,我们可以用一个文本文件来模拟队列的数据。完整的例子文件看这里:spider_task_factory_data.txt

http://ent.ifeng.com/
http://news.sina.com.cn/
http://news.ifeng.com/
http://news.163.com/
http://news.sohu.com/
http://ent.sina.com.cn/
http://ent.ifeng.com/
...
END

使用QPM的taskFactoryMode之前,我们需要准备一个TaskFactory类。 我们将其命名为 SpiderTaskFactory,SpdierTaskFactory 的工厂方法fetchTask 正常返回 Runnable的子类的实例。当碰到END或文件结束,则throw StopSignal,这样程序就会终止。

以下是组装 Supervisor 并执行的代码片段。完整的例子见:spider_task_factory.php

//如果没有从参数指定输入,把spider_task_factory_data.txt作为数据源

$input = isset($argv[1]) ? $argv[1] : __DIR__.'/spider_task_factory_data.txt';
$spiderTaskFactory = new SpiderTaskFactory($input);$config = [
    //指定taskFactory对象和工厂方法
    'factoryMethod'=>[$spiderTaskFactory, 'fetchTask'],
    //指定最大并发数量为3
    'quantity' => 3,
];
//启动Supervisor
qpm\supervisor\Supervisor::taskFactoryMode($config)->start();

SpiderTaskFactory 的实现如下:

/**
 * 任务工厂,必须实现 fetchTask方法。
 * 该方法正常返回
 * 
*/class SpiderTaskFactory {
    private $_fh;
    public function __construct($input) {
        $this->_input = $input;
        $this->_fh = fopen($input, 'r');
        if ($this->_fh === false) {
            throw new Exception('fopen failed:'.$input);
        }
    }
    public function fetchTask() {
      while (true) {
        if (feof($this->_fh)) {
                throw new qpm\supervisor\StopSignal();
        }
        $line = trim(fgets($this->_fh));
        if ($line == 'END') {
            throw new qpm\supervisor\StopSignal();
        }
        if (empty($line)) {
            continue;
        }
        break;
      }
      return new SpiderTask($line);
    }
}

SpiderTask 的实现如下:

/**
 * 在子进程中执行任务的类
 * 必须实现 qpm\process\Runnable 接口
 */
 class SpiderTask implements qpm\process\Runnable {
    private $_target;
    public function __construct($target) {
      $this->_target = $target;
    }
    
    //在子进程中执行的部分
    public function run() {
      $r = @file_get_contents($this->_target);    
      if ($r===false) {        
        throw new Exception('fail to crawl url:'.$this->_target);
      }
      file_put_contents($this->getLocalFilename(), $r);   
    }
    private function getLocalFilename() {
      $filename = str_replace('/', '~', $this->_target);    
      $filename = str_replace(':', '_', $filename);    
      $filename = $filename.'-'.date('YmdHis');    
      return __DIR__.'/_spider/'.$filename.'.html';
    }
}

 真实的生产环境,用队列替换文件输入,即可实现持久运行的生产者/消费者模型的程序。

关于 QPM的使用,可以参考:

QPM介绍

安装和使用PHP进程管理框架 QPM
使用qpm创建daemon程序
使用QPM编写PHP 多进程程序
 PHP使用QPM实现多进程并行任务处理程序


© 著作权归作者所有

AlexQ
粉丝 5
博文 10
码字总数 3706
作品 0
海淀
私信 提问
加载中

评论(13)

AlexQ
AlexQ 博主

引用来自“pythoner-xj”的评论

PHP就不应该干这个,干嘛生搬硬套呢。
QPM出自实际运用中的项目,和应用场景很贴合。 后续会释出一些更具体的例子,欢迎关注。
p
pythoner-xj
PHP就不应该干这个,干嘛生搬硬套呢。
金拱门
金拱门
CLI速度比web服务软件运行快了N倍。结合多线程进程进行爬页面是一个变态的行为。哈哈。我的肉丝网就是基于CLI模式抓取,量不大根本不需要多线程之类。20
AlexQ
AlexQ 博主

引用来自“neo-chen”的评论

PHP 的pcntl + pthread + libevent 已经非常强大。我使用PHP写了很多多线程+进程的程序。已有2年。非常满意,性能非常好。PHP CLI 比 php web更强大:)
是的,PHP CLI 编程其实很棒。
AlexQ
AlexQ 博主

引用来自“walkskyer”的评论

开发爬虫最好还是不要轻易使用php。除非非要集成到系统方便普通用户使用
嗯,是的,如果是开发爬虫,Python等语言都是不错的选择。 这里是一个示例,主要目的是说明 takeFactoryMode的用法。 适合使用QPM的场景我觉得有如下特征:1、依赖PHP语言(团队等因素);2、长期运行的守护进程;3、涉及多进程调度。
eechen
eechen

引用来自“neo-chen”的评论

PHP 的pcntl + pthread + libevent 已经非常强大。我使用PHP写了很多多线程+进程的程序。已有2年。非常满意,性能非常好。PHP CLI 比 php web更强大:)

引用来自“高榕”的评论

弄一篇博客出来嘛!学习一下!
http://my.oschina.net/eechen/tweet/4687991
郭振华oo
郭振华oo

引用来自“neo-chen”的评论

PHP 的pcntl + pthread + libevent 已经非常强大。我使用PHP写了很多多线程+进程的程序。已有2年。非常满意,性能非常好。PHP CLI 比 php web更强大:)

引用来自“高榕”的评论

弄一篇博客出来嘛!学习一下!
+1
eechen
eechen

引用来自“walkskyer”的评论

开发爬虫最好还是不要轻易使用php。除非非要集成到系统方便普通用户使用
PHP多线程用for循环抓取百度搜索页面的代码示例: http://zyan.cc/pthreads/ PHP pthreads再辅以一些DOM操作库,进行网页抓取简单又快速. PHP的多线程扩展pthreads已经发布2.0.10版本,已经足够稳定. http://pthreads.org/tutorials/start.html http://pecl.php.net/package/pthreads https://github.com/krakjoe/pthreads/tree/master/examples
高榕
高榕

引用来自“neo-chen”的评论

PHP 的pcntl + pthread + libevent 已经非常强大。我使用PHP写了很多多线程+进程的程序。已有2年。非常满意,性能非常好。PHP CLI 比 php web更强大:)
弄一篇博客出来嘛!学习一下!
netkiller-
netkiller-
PHP 的pcntl + pthread + libevent 已经非常强大。我使用PHP写了很多多线程+进程的程序。已有2年。非常满意,性能非常好。PHP CLI 比 php web更强大:)
QPM-PHP进程管理框架

QPM全名是 Quick Process Management Framework for PHP. PHP 是强大的web开发语言,以至于大家常常忘记PHP 可以用来开发健壮的命令行(CLI)程序以至于daemon程序。 而编写daemon程序免不了...

AlexQ
2015/03/10
391
0
PHP进程管理框架--QPM

QPM全名是 Quick Process Management Framework in PHP. PHP 是强大的 web 开发语言,以至于大家常常忘记 PHP 可以用来开发健壮的命令行(CLI)程序以至于 daemon 程序。 而编写 daemon 程序...

赵青
2015/02/27
1K
0
PgSQL · 答疑解惑 · PostgreSQL 9.6 并行查询实现分析

背景 随着PG9.5 项目的release,属于PG9.6的代码也陆续进入代码主干,其中最让人激动的特性并行查询终于进入了核心代码。pger们对这个新特性期待了太久的时间,代码刚提交我们就迫不及待的拿到...

阿里云RDS-数据库内核组
2016/02/06
0
0
java定时调度器解决方案分类及特性介绍

什么是定时调度器? 我们知道程序的运行要么是由事件触发的,而这种事件的触发源头往往是用户通过ui交互操作层层传递过来的;但是我们知道还有另外一种由机器系统时间触发的程序运行场景。大...

杨武兵
2016/02/26
1K
4
并行、并发、多线程、多进程、协程到底啥关系?

认真把这些概念的关系梳理清楚,绝对是一件打根基的好事。作为自学计算机的人,越早明白这些基本概念,就越能提高自己的自学速度。 1、并行(Parallelism) 并行是说同一时刻做很多操作。多进...

milter
04/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

【0918】正则介绍_grep

【0918】正则介绍_grep 9.1 正则介绍_grep上 9.2 grep中 9.3 grep下 一、正则介绍 正则是一串有规律的字符串,它使用单个字符串来描述或匹配一系列符合某个语法规则的字符串。 二、grep工具 ...

飞翔的竹蜻蜓
27分钟前
4
0
为什么要在网站中应用CDN加速?

1. 网页加载速度更快 在网站中使用CDN技术最直接的一个好处就是它可以加快网页的加载速度。首先,CDN加速的内容分发是基于服务器缓存的,由于CDN中缓存了不少数据,它能够给用户提供更快的页...

云漫网络Ruan
今天
8
0
亚玛芬体育(Amer Sports)和信必优正式启动合作开发Movesense创新

亚玛芬体育和信必优正式启动合作开发Movesense创新,作为亚玛芬体育的完美技术搭档,信必优利用Movesense传感器技术为第三方开发移动应用和服务。 Movesense基于传感器技术和开放的API,测量...

symbiochina88
今天
4
0
创龙TI AM437x ARM Cortex-A9 + Xilinx Spartan-6 FPGA核心板规格书

SOM-TL437xF是一款广州创龙基于TI AM437x ARM Cortex-A9 + Xilinx Spartan-6 FPGA芯片设计的核心板,采用沉金无铅工艺的10层板设计,适用于高速数据采集和处理系统、汽车导航、工业自动化等领...

Tronlong创龙
今天
5
0
好程序员Java学习路线分享MyBatis之线程优化

  好程序员Java学习路线分享MyBatis之线程优化,我们的项目存在大量用户同时访问的情况,那么就会出现大量线程并发访问数据库,这样会带来线程同步问题,本章我们将讨论MyBatis的线程同步问...

好程序员官方
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部