文档章节

pyspider爬虫学习-文档翻译-About-Tasks.md

sijinge
 sijinge
发布于 2017/08/30 22:18
字数 713
阅读 72
收藏 0
About Tasks 关于任务
===========
任务是指被调度的基本单元
Tasks are the basic unit to be scheduled.

Basis
-----
每个任务都有不同的“taskid”。(默认为:“md5(url)”,可以通过重写“def get_taskid(self, task)” 方法经行修改)
* A task is differentiated by its `taskid`. (Default: `md5(url)`, can be changed by overriding the `def get_taskid(self, task)` method)
在不同的项目之间任务是相互隔离的
* Tasks are isolated between different projects.
每个任务有种状态
* A Task has 4 status:
    - active 运行
    - failed 失败
    - success 成功
    - bad 错误 - not used 非用户产生
  仅仅当任务为运行状态时才会被调度
* Only tasks in active status will be scheduled.
  任务按优先级顺序执行
* Tasks are served in order of `priority`.

Schedule
--------

#### new task
当一个新任务进来的时候
When a new task (never seen before) comes in:
  如果执行时间已经设置但是没有起作用,它将被放在基于时间的队列中等待。
* If `exetime` is set but not arrived, it will be put into a time-based queue to wait.
  否则将被接受
* Otherwise it will be accepted.
当这个任务已经在队列里面时
When the task is already in the queue:
除非强制更新否则忽略
* Ignored unless `force_update`
当一个任务完成退出
When a completed task comes out:
如果"age"已经设置,且`last_crawl_time + age < now`任务将被接受,否则丢弃
* If `age` is set, `last_crawl_time + age < now` it will be accepted. Otherwise discarded.
如果"itag"已经设置,且不等于它之前得值,任务将被接受,否则丢弃
* If `itag` is set and not equal to it's previous value, it will be accepted. Otherwise discarded.


#### task retry 任务重试
当发生读取错误或脚本错误时,任务将在默认情况下重试3次。
When a fetch error or script error happens, the task will retry 3 times by default.
首次重试将在30秒,1小时,6小时,12小时分别执行一次,更多的重试将在等待24小时后执行
The first retry will execute every time after 30 seconds, 1 hour, 6 hours, 12 hours and any more retries will postpone 24 hours.

如果“age”已经指定,那么重试延时将不会大于“age”
If `age` is specified, the retry delay will not larger then `age`.
你可以通过添加名为“retry_delay”的变量处理者的方式来配置重试延时,“retry_delay”是一个字典用来明确重试间隔,字典项格式为{retried: seconds},如果没有指定,就用一个特殊的key:''(空字符串)指定默认重试,
You can config the retry delay by adding a variable named `retry_delay` to handlerretry_delay. `retry_delay` is a dict to specify retry intervals. The items in the dict are {retried: seconds}, and a special key: '' (empty string) is used to specify the default retry delay if not specified.

这个默认的”retry_delay“ 声明如下
e.g. the default `retry_delay` declares like:
```
class MyHandler(BaseHandler):
    retry_delay = {
        0: 30,
        1: 1*60*60,
        2: 6*60*60,
        3: 12*60*60,
        '': 24*60*60
    }
```

© 著作权归作者所有

共有 人打赏支持
sijinge
粉丝 0
博文 41
码字总数 37230
作品 0
广州
架构师
私信 提问
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0
pyspider + RabbitMQ 使用记 - 上

接到一个爬虫任务,项目比较巨大,原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器,才知道之前的想法 low 爆了。pyspider GitHub 按照 GitHub 上的安装教程安装好以后,我...

xh4n3
2015/08/04
0
0
OS X安装pyspider遇到问题

新手一个,学完python,想玩儿爬虫,可安装pyspider的时候报错不知道怎么回事,于是来请教大牛,截图如下:(另外我是从命令行输入 pip install pyspider 来安装的)...

AaronYun
2015/08/07
697
1
用PySpider搜集2017年高校招生章程

个人认为PySpider是一个十分容易上手而且功能强大的Python爬虫框架。支持多线程爬取、JS动态解析、出错重试、定时爬取等等的功能。最重要的是,它通过web提供了可操作界面,使用非常人性化。...

临江仙卜算子
05/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

三星Galaxy S10可能会配备TOF 3D摄像头

12月3日消息,据Phone Arena报道,三星Galaxy S10可能会配备TOF 3D摄像头。 Phone Arena报道称三星Galaxy S10一共有五颗摄像头(前置双摄+后置三摄),而5G版本的Galaxy S10后置四颗摄像头,...

问题终结者
26分钟前
8
0
fabric增删改查Mac

备份1.3版本,重新下载1.1版本到fabric文件夹 /opt/gopath/src/github.com/hyperledger/fabric -> /opt/gopath/src/github.com/hyperledger/fabric1.3 新建/opt/gopath/src/github.com/hype......

八戒八戒八戒
55分钟前
9
0
盘点愚人节各大网站彩蛋,谁最爱恶搞?

如今的愚人节俨然已是各品牌宣传了一个重要节日,同时,也成为了各大互联网科技企业凑热闹,比拼创意和策划的节日。跟小编一起看看有哪些有趣的策划吧! Google地图变成吃豆人游戏 每年愚人节...

临江仙卜算子
今天
6
0
Java7/8 中的 HashMap 和 ConcurrentHashMap 全解析

本文分析的是源码,所以至少读者要熟悉它们的接口使用,同时,对于并发,读者至少要知道 CAS、ReentrantLock、UNSAFE 操作这几个基本的知识,文中不会对这些知识进行介绍。Java8 用到了红黑树...

java菜分享
今天
6
0
玩手机与做实验

看过这样一个故事:说的是在二十世纪二十年代初的一个深夜,担任英国剑桥大学卡文迪许实验室主任的卢瑟福来实验室检查,发现一位学生还在做实验。卢瑟福就问他:“你上午做什么了?”学生回答...

Bob2100
今天
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部