1.itempipeline_scrapy_in_practise
1.itempipeline_scrapy_in_practise
炸鱼薯条 发表于1个月前
1.itempipeline_scrapy_in_practise
  • 发表于 1个月前
  • 阅读 19
  • 收藏 0
  • 点赞 1
  • 评论 0

腾讯云 十分钟定制你的第一个小程序>>>   

摘要: itempipeline的使用及介绍, </br>http://git.oschina.net/kratos123/scrapy_in_pracise

1.ItemPipeLine

流程图:

 

see :http://scrapy.readthedocs.io/en/latest/topics/item-pipeline.html

功能:

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用:

  • 验证爬取的数据(检查item包含某些字段,比如说name字段)

  • 查重(并丢弃)

  • 将爬取结果保存到文件或者数据库中

  • 清洗Html数据

每一个pipeline都是一个简单的python类,但是必须要实现既定的方法,才能启动应有的功能。

# -*- coding: utf-8 -*-
​
​
​
class BaseItemPipeline(object):
​
    def __init__(self):
        pass
​
    # 必须要实现的方法
    # 这个方法每次都会调用,是处理数据逻辑所在,可通过item参数获得到在spider已成功爬去的已封装的数据,
    # 通过不同的返回参数来区别不同的pipeline 流程控制.
    # 返回参数:
    # dict
    # Item(即参数item),或其子类
    # return a Twisted Deferred
    # raise DropItem 异常,以表示该item不需要被之后的pipline处理 即丢弃了改item
    def process_item(self, item, spider):
        # item (Item 对象) – 被爬取的item
        # spider (Spider 对象) – 爬取该item的spider
        # 这个方法必须返回一个 Item 对象,被丢弃的item将不会被之后的pipeline组件所处理。
        return item
​
    #可选实现的方法
    def open_spider(self, spider):
        # spider (Spider 对象) – 被开启的spider
        # 可选实现,当spider被开启时,这个方法被调用。
        pass
​
    # 可选实现的方法
    def close_spider(self, spider):
        # spider (Spider 对象) – 被关闭的spider
        # 可选实现,当spider被关闭时,这个方法被调用
        pass
​
    # 可选实现的方法
    # If present, this classmethod is called to create a pipeline instance from a Crawler.
    # It must return a new instance of the pipeline.
    # Crawler object provides access to all Scrapy core components like settings and signals;
    # it is a way for pipeline to access them and hook its functionality into Scrapy.
    @classmethod
    def from_crawler(cls, crawler):
        pass
​

启用一个pipeline

当完成以上的自定义ItemPipeline之后,需要在setting文件 启动该ItemPipeline.

 

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

这样就在数据处理过程 按照后面的整数按由小到大顺序执行itempipeline了。

顺序值的仅可在0--1000范围取整数。

 

2.例子程序:

 

1.将数据保存为json文件

import json
​
class JsonWriterPipeline(object):
​
    def open_spider(self, spider):
        self.file = open('items.jl', 'w')
​
    def close_spider(self, spider):
        self.file.close()
​
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

 

 

2.将数据写入到MongoDB

# 这个例子的主要说明如何使用 类方法from_crawler,并且如何清洗数据。

import pymongo
​
class MongoPipeline(object):
​
    collection_name = 'scrapy_items'
​
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
​
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    #打开数据库连接
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    #关闭数据库连接
    def close_spider(self, spider):
        self.client.close()
    #将数据写入数据库
    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item
      

 

3.

这个例子主要说明如何返回一个deferred类。

deferred 类 https://twistedmatrix.com/documents/current/core/howto/defer.html

import scrapy
import hashlib
from urllib.parse import quote
​
​
class ScreenshotPipeline(object):
    """Pipeline that uses Splash to render screenshot of
    every Scrapy item."""
​
    SPLASH_URL = "http://localhost:8050/render.png?url={}"
​
    def process_item(self, item, spider):
        encoded_item_url = quote(item["url"])
        screenshot_url = self.SPLASH_URL.format(encoded_item_url)
        request = scrapy.Request(screenshot_url)
        dfd = spider.crawler.engine.download(request, spider)
        dfd.addBoth(self.return_item, item)
        return dfd
​
    def return_item(self, response, item):
        if response.status != 200:
            # Error happened, return item.
            return item
​
        # Save screenshot to file, filename will be hash of url.
        url = item["url"]
        url_hash = hashlib.md5(url.encode("utf8")).hexdigest()
        filename = "{}.png".format(url_hash)
        with open(filename, "wb") as f:
            f.write(response.body)
​
        # Store filename in item.
        item["screenshot_filename"] = filename
        return item

 

3.总结:

在整个流程中处于item_pipeline 是已成功爬取到数据后对数据验证,清洗,已经保存的功能。

scrapy也有一些现成的pipeline已便使用。

See: https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=Image

  1. Files Pipeline

  2. Image Pipeline

  3. Media Pipeline

 

 

标签: Scrapy 爬虫 py
共有 人打赏支持
粉丝 0
博文 2
码字总数 2150
×
炸鱼薯条
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: