文档章节

pyspider爬虫学习-文档翻译-About-Tasks.md

sijinge
 sijinge
发布于 2017/08/30 22:18
字数 713
阅读 173
收藏 0

精选30+云产品,助力企业轻松上云!>>>

About Tasks 关于任务
===========
任务是指被调度的基本单元
Tasks are the basic unit to be scheduled.

Basis
-----
每个任务都有不同的“taskid”。(默认为:“md5(url)”,可以通过重写“def get_taskid(self, task)” 方法经行修改)
* A task is differentiated by its `taskid`. (Default: `md5(url)`, can be changed by overriding the `def get_taskid(self, task)` method)
在不同的项目之间任务是相互隔离的
* Tasks are isolated between different projects.
每个任务有种状态
* A Task has 4 status:
    - active 运行
    - failed 失败
    - success 成功
    - bad 错误 - not used 非用户产生
  仅仅当任务为运行状态时才会被调度
* Only tasks in active status will be scheduled.
  任务按优先级顺序执行
* Tasks are served in order of `priority`.

Schedule
--------

#### new task
当一个新任务进来的时候
When a new task (never seen before) comes in:
  如果执行时间已经设置但是没有起作用,它将被放在基于时间的队列中等待。
* If `exetime` is set but not arrived, it will be put into a time-based queue to wait.
  否则将被接受
* Otherwise it will be accepted.
当这个任务已经在队列里面时
When the task is already in the queue:
除非强制更新否则忽略
* Ignored unless `force_update`
当一个任务完成退出
When a completed task comes out:
如果"age"已经设置,且`last_crawl_time + age < now`任务将被接受,否则丢弃
* If `age` is set, `last_crawl_time + age < now` it will be accepted. Otherwise discarded.
如果"itag"已经设置,且不等于它之前得值,任务将被接受,否则丢弃
* If `itag` is set and not equal to it's previous value, it will be accepted. Otherwise discarded.


#### task retry 任务重试
当发生读取错误或脚本错误时,任务将在默认情况下重试3次。
When a fetch error or script error happens, the task will retry 3 times by default.
首次重试将在30秒,1小时,6小时,12小时分别执行一次,更多的重试将在等待24小时后执行
The first retry will execute every time after 30 seconds, 1 hour, 6 hours, 12 hours and any more retries will postpone 24 hours.

如果“age”已经指定,那么重试延时将不会大于“age”
If `age` is specified, the retry delay will not larger then `age`.
你可以通过添加名为“retry_delay”的变量处理者的方式来配置重试延时,“retry_delay”是一个字典用来明确重试间隔,字典项格式为{retried: seconds},如果没有指定,就用一个特殊的key:''(空字符串)指定默认重试,
You can config the retry delay by adding a variable named `retry_delay` to handlerretry_delay. `retry_delay` is a dict to specify retry intervals. The items in the dict are {retried: seconds}, and a special key: '' (empty string) is used to specify the default retry delay if not specified.

这个默认的”retry_delay“ 声明如下
e.g. the default `retry_delay` declares like:
```
class MyHandler(BaseHandler):
    retry_delay = {
        0: 30,
        1: 1*60*60,
        2: 6*60*60,
        3: 12*60*60,
        '': 24*60*60
    }
```
sijinge
粉丝 0
博文 48
码字总数 48130
作品 0
广州
架构师
私信 提问
加载中
请先登录后再评论。
PySpider 使用过程中的问题记录

问题记录 PyCurl的问题 安装时出现: 这个问题是系统的libcurl编译方式引起的,更改环境变量为即可。 解决方法来自这里 解决方式: wsgidav的问题 运行时出现 此问题是因为wsgidav最新版为3...

Shaneee
2019/10/10
85
0
搭建pyspider爬虫服务

环境准备 首先yum更新 yum update -y   安装开发编译工具 yum install gcc gcc-c++ -y   安装依赖库 yum install python-pip python-devel python-distribute libxml2 libxml2-devel py......

osc_7v8xw84w
2018/03/20
2
0
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
【爬虫】进阶修习系列 · 一

本文会涉及以下内容:【不定时修改中。。。】 1. pyspider的介绍; 2. 爬虫架构的典型设计; 3. 垂直搜索引擎的初探。 PySpider 之前的爬虫策略很简单,用得python2.7:urllib2 + Beautiful...

jxfactor
2015/10/22
0
0
pyspider兼容python3.7解决方案

最近再学习python3爬虫,遇到了pyspider不兼容python3.7的问题,记录一下我解决的步骤: 1.找到pyspider安装目录Libsite-packagespyspider e.g:C:Users用户AppDataLocalProgramsPythonPytho...

码叔
03/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

MetadataException:无法加载指定的元数据资源 - MetadataException: Unable to load the specified metadata resource

问题: All of a sudden I keep getting a MetadataException on instantiating my generated ObjectContext class. 突然间,我在实例化生成的ObjectContext类时不断收到MetadataException 。......

fyin1314
32分钟前
8
0
如何使用Java获取当前日期/时间 - How to get the current date/time in Java

问题: 用Java获取当前日期/时间的最佳方法是什么? 解决方案: 参考一: https://stackoom.com/question/LiRU/如何使用Java获取当前日期-时间 参考二: https://oldbug.net/q/LiRU/How-to-g...

富含淀粉
今天
14
0
SUSE收购Rancher Labs:押注云原生市场

导读:Gartner预测,到2024年,成熟的经济体中采用云原生应用程序和基础架构将使容器管理的使用率超过75%的大型企业,而2020年还不到35%。 7月8日,全球最大的独立开源公司SUSE获得收购Ran...

开源村OSV
今天
19
0
一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

本文作者:杨蕊1002 飞桨(PaddlePaddle)是国内唯一功能完备的端到端开源深度学习平台,集深度学习训练和预测框架、模型库、工具组件、服务平台为一体,其兼具灵活和效率的开发机制、工业级...

百度开发者中心
2019/07/17
16
0
Emacs和Vim之间的差异 - Differences between Emacs and Vim

问题: Without getting into a religious argument about why one is better than the other, what are the practical differences between Emacs and Vim? 在没有就为什么一个比另一个更好......

法国红酒甜
今天
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部