文档章节

pyspider爬虫学习-文档翻译-About-Tasks.md

sijinge
 sijinge
发布于 2017/08/30 22:18
字数 713
阅读 71
收藏 0
About Tasks 关于任务
===========
任务是指被调度的基本单元
Tasks are the basic unit to be scheduled.

Basis
-----
每个任务都有不同的“taskid”。(默认为:“md5(url)”,可以通过重写“def get_taskid(self, task)” 方法经行修改)
* A task is differentiated by its `taskid`. (Default: `md5(url)`, can be changed by overriding the `def get_taskid(self, task)` method)
在不同的项目之间任务是相互隔离的
* Tasks are isolated between different projects.
每个任务有种状态
* A Task has 4 status:
    - active 运行
    - failed 失败
    - success 成功
    - bad 错误 - not used 非用户产生
  仅仅当任务为运行状态时才会被调度
* Only tasks in active status will be scheduled.
  任务按优先级顺序执行
* Tasks are served in order of `priority`.

Schedule
--------

#### new task
当一个新任务进来的时候
When a new task (never seen before) comes in:
  如果执行时间已经设置但是没有起作用,它将被放在基于时间的队列中等待。
* If `exetime` is set but not arrived, it will be put into a time-based queue to wait.
  否则将被接受
* Otherwise it will be accepted.
当这个任务已经在队列里面时
When the task is already in the queue:
除非强制更新否则忽略
* Ignored unless `force_update`
当一个任务完成退出
When a completed task comes out:
如果"age"已经设置,且`last_crawl_time + age < now`任务将被接受,否则丢弃
* If `age` is set, `last_crawl_time + age < now` it will be accepted. Otherwise discarded.
如果"itag"已经设置,且不等于它之前得值,任务将被接受,否则丢弃
* If `itag` is set and not equal to it's previous value, it will be accepted. Otherwise discarded.


#### task retry 任务重试
当发生读取错误或脚本错误时,任务将在默认情况下重试3次。
When a fetch error or script error happens, the task will retry 3 times by default.
首次重试将在30秒,1小时,6小时,12小时分别执行一次,更多的重试将在等待24小时后执行
The first retry will execute every time after 30 seconds, 1 hour, 6 hours, 12 hours and any more retries will postpone 24 hours.

如果“age”已经指定,那么重试延时将不会大于“age”
If `age` is specified, the retry delay will not larger then `age`.
你可以通过添加名为“retry_delay”的变量处理者的方式来配置重试延时,“retry_delay”是一个字典用来明确重试间隔,字典项格式为{retried: seconds},如果没有指定,就用一个特殊的key:''(空字符串)指定默认重试,
You can config the retry delay by adding a variable named `retry_delay` to handlerretry_delay. `retry_delay` is a dict to specify retry intervals. The items in the dict are {retried: seconds}, and a special key: '' (empty string) is used to specify the default retry delay if not specified.

这个默认的”retry_delay“ 声明如下
e.g. the default `retry_delay` declares like:
```
class MyHandler(BaseHandler):
    retry_delay = {
        0: 30,
        1: 1*60*60,
        2: 6*60*60,
        3: 12*60*60,
        '': 24*60*60
    }
```

© 著作权归作者所有

共有 人打赏支持
sijinge
粉丝 0
博文 41
码字总数 37230
作品 0
广州
架构师
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0
pyspider + RabbitMQ 使用记 - 上

接到一个爬虫任务,项目比较巨大,原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器,才知道之前的想法 low 爆了。pyspider GitHub 按照 GitHub 上的安装教程安装好以后,我...

xh4n3
2015/08/04
0
0
用PySpider搜集2017年高校招生章程

个人认为PySpider是一个十分容易上手而且功能强大的Python爬虫框架。支持多线程爬取、JS动态解析、出错重试、定时爬取等等的功能。最重要的是,它通过web提供了可操作界面,使用非常人性化。...

临江仙卜算子
05/15
0
0
网络爬虫08: PySpider爬虫框架

爬虫的基础知识到这里,已经可以暂时告一段落,接下来就是学会使用框架来写爬虫,用框架会使爬虫代码更加简洁。在这之前,我也了解了一下关于Python爬虫都有哪些框架 Python常用爬虫框架 1....

代码打碟手
09/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS7防火墙firewalld操作

firewalld Linux上新用的防火墙软件,跟iptables差不多的工具。 firewall-cmd 是 firewalld 的字符界面管理工具,firewalld是CentOS7的一大特性,最大的好处有两个:支持动态更新,不用重启服...

dingdayu
今天
1
0
关于组件化的最初步

一个工程可能会有多个版本,有国际版、国内版、还有针对各种不同的渠道化的打包版本、这个属于我们日常经常见到的打包差异化版本需求。 而对于工程的开发,比如以前的公司,分成了有三大块业...

DannyCoder
今天
2
0
Spring的Resttemplate发送带header的post请求

private HttpHeaders getJsonHeader() { HttpHeaders headers = new HttpHeaders(); MediaType type = MediaType.parseMediaType("application/json; charset=UTF-8"); ......

qiang123
昨天
3
0
Spring Cloud Gateway 之 Only one connection receive subscriber allowed

都说Spring Cloud Gateway好,我也来试试,可是配置了总是报下面这个错误: java.lang.IllegalStateException: Only one connection receive subscriber allowed. 困扰了我几天的问题,原来...

ThinkGem
昨天
27
0
学习设计模式——观察者模式

1. 认识观察者模式 1. 定义:定义对象之间一种一对多的依赖关系,当一个对象状态发生变化时,依赖该对象的其他对象都会得到通知并进行相应的变化。 2. 组织结构: Subject:目标对象类,会被...

江左煤郎
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部