文档章节

1.itempipeline_scrapy_in_practise

炸鱼薯条
 炸鱼薯条
发布于 2017/09/11 10:42
字数 955
阅读 23
收藏 0

1.ItemPipeLine

流程图:

 

see :http://scrapy.readthedocs.io/en/latest/topics/item-pipeline.html

功能:

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用:

  • 验证爬取的数据(检查item包含某些字段,比如说name字段)

  • 查重(并丢弃)

  • 将爬取结果保存到文件或者数据库中

  • 清洗Html数据

每一个pipeline都是一个简单的python类,但是必须要实现既定的方法,才能启动应有的功能。

# -*- coding: utf-8 -*-
​
​
​
class BaseItemPipeline(object):
​
    def __init__(self):
        pass
​
    # 必须要实现的方法
    # 这个方法每次都会调用,是处理数据逻辑所在,可通过item参数获得到在spider已成功爬去的已封装的数据,
    # 通过不同的返回参数来区别不同的pipeline 流程控制.
    # 返回参数:
    # dict
    # Item(即参数item),或其子类
    # return a Twisted Deferred
    # raise DropItem 异常,以表示该item不需要被之后的pipline处理 即丢弃了改item
    def process_item(self, item, spider):
        # item (Item 对象) – 被爬取的item
        # spider (Spider 对象) – 爬取该item的spider
        # 这个方法必须返回一个 Item 对象,被丢弃的item将不会被之后的pipeline组件所处理。
        return item
​
    #可选实现的方法
    def open_spider(self, spider):
        # spider (Spider 对象) – 被开启的spider
        # 可选实现,当spider被开启时,这个方法被调用。
        pass
​
    # 可选实现的方法
    def close_spider(self, spider):
        # spider (Spider 对象) – 被关闭的spider
        # 可选实现,当spider被关闭时,这个方法被调用
        pass
​
    # 可选实现的方法
    # If present, this classmethod is called to create a pipeline instance from a Crawler.
    # It must return a new instance of the pipeline.
    # Crawler object provides access to all Scrapy core components like settings and signals;
    # it is a way for pipeline to access them and hook its functionality into Scrapy.
    @classmethod
    def from_crawler(cls, crawler):
        pass
​

启用一个pipeline

当完成以上的自定义ItemPipeline之后,需要在setting文件 启动该ItemPipeline.

 

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

这样就在数据处理过程 按照后面的整数按由小到大顺序执行itempipeline了。

顺序值的仅可在0--1000范围取整数。

 

2.例子程序:

 

1.将数据保存为json文件

import json
​
class JsonWriterPipeline(object):
​
    def open_spider(self, spider):
        self.file = open('items.jl', 'w')
​
    def close_spider(self, spider):
        self.file.close()
​
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

 

 

2.将数据写入到MongoDB

# 这个例子的主要说明如何使用 类方法from_crawler,并且如何清洗数据。

import pymongo
​
class MongoPipeline(object):
​
    collection_name = 'scrapy_items'
​
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
​
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    #打开数据库连接
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    #关闭数据库连接
    def close_spider(self, spider):
        self.client.close()
    #将数据写入数据库
    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item
      

 

3.

这个例子主要说明如何返回一个deferred类。

deferred 类 https://twistedmatrix.com/documents/current/core/howto/defer.html

import scrapy
import hashlib
from urllib.parse import quote
​
​
class ScreenshotPipeline(object):
    """Pipeline that uses Splash to render screenshot of
    every Scrapy item."""
​
    SPLASH_URL = "http://localhost:8050/render.png?url={}"
​
    def process_item(self, item, spider):
        encoded_item_url = quote(item["url"])
        screenshot_url = self.SPLASH_URL.format(encoded_item_url)
        request = scrapy.Request(screenshot_url)
        dfd = spider.crawler.engine.download(request, spider)
        dfd.addBoth(self.return_item, item)
        return dfd
​
    def return_item(self, response, item):
        if response.status != 200:
            # Error happened, return item.
            return item
​
        # Save screenshot to file, filename will be hash of url.
        url = item["url"]
        url_hash = hashlib.md5(url.encode("utf8")).hexdigest()
        filename = "{}.png".format(url_hash)
        with open(filename, "wb") as f:
            f.write(response.body)
​
        # Store filename in item.
        item["screenshot_filename"] = filename
        return item

 

3.总结:

在整个流程中处于item_pipeline 是已成功爬取到数据后对数据验证,清洗,已经保存的功能。

scrapy也有一些现成的pipeline已便使用。

See: https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=Image

  1. Files Pipeline

  2. Image Pipeline

  3. Media Pipeline

 

 

© 著作权归作者所有

共有 人打赏支持
炸鱼薯条
粉丝 0
博文 2
码字总数 2150
作品 0
天津
何时使用log4j的isDebugEnabled属性来进行日志记录?

我经常见到这个问题,到底使不使用idDebugEnabled属性。这个问题经常被争论,而焦点往往是性能。 答案很简单。既然有这个属性,当然是拿来使用的。但是使用的时候需要注意。 例如,在我的代码...

五大三粗
2015/08/25
0
0
对文本进行pos-tag

我想对文本进行pos-tag import nltk; fileobject = open('E:\practise\Web1T5-Easy-1.1\3grams\3gm-0000.txt') try: for eachline in fileobject: print eachline,; text = nltk.wordtokeniz......

taolin2014
2014/05/28
1K
1
scrapy运行后无结果

我编写了最简单的scrapy脚本如下: # -- coding: utf-8 -- import scrapy class MySpider(scrapy.Spider): 运行后显示如下结果: 2017-07-06 17:46:52 [scrapy.utils.log] INFO: Scrapy 1.4.......

parkmen
2017/07/06
33
1
ERROR: Could not open CONNECT tunnel

Landon Campbell Landon Campbell Email: c***@hotmail.com Posts: 4 Find Posts Threads: 2 Find Threads 11 months ago Permalink Raw Message Report Hi, Pretty new to Scrapy, so forgi......

Airship
2016/03/02
45
0
zg手册 之 scrapy 开发(7)-- 爬虫调试

scrapy 提供的调试方法 scrapy shell 调试选择器 命令行调试 spider web 控制台(运行时) telnet 控制台(运行时查看scrapy对象,检测检测内存泄漏问题) scrapy shell 调试选择器 可以在命...

东昕
2014/05/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Java日期和时间获取问题

获取年月日时分秒 Calendar cal = Calendar.getInstance();//获取年int year = cal.get(Calendar.YEAR);//获取月,范围是0-11,最后使用需+1int month = cal.get(Cal...

lanyu96
23分钟前
7
0
Ceph学习笔记2-在Kolla-Ansible中使用Ceph后端存储

环境说明 使用Kolla-Ansible请参考《使用Kolla-Ansible在CentOS 7单节点上部署OpenStack Pike》; 部署Ceph服务请参考《Ceph学习笔记1-Mimic版本多节点部署》。 配置Ceph 以osdev用户登录: ...

LastRitter
27分钟前
6
0
OSChina 周二乱弹 —— 老司机表示右手无处安放

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @花间小酌 :分享李宗盛的单曲《鬼迷心窍》--春风再美也比不上你的笑 《鬼迷心窍》 - 李宗盛 手机党少年们想听歌,请使劲儿戳(这里) 每天早...

小小编辑
38分钟前
225
5
复习2

10月22日任务 awk 中使用外部shell变量 awk 合并一个文件 把一个文件多行连接成一行 awk中gsub函数的使用 awk 截取指定多个域为一行 过滤两个或多个关键词 用awk生成以下结构文件 awk用print...

hhpuppy
46分钟前
5
0
原型模式

1、原型模式-定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象 克隆(浅度克隆->拷贝值类型或者引用,深度克隆->创建新的对象,开辟新的内存) 例如客户端知道抽象Pro...

阿元
今天
62
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部