文档章节

1.itempipeline_scrapy_in_practise

炸鱼薯条
 炸鱼薯条
发布于 2017/09/11 10:42
字数 955
阅读 26
收藏 0

1.ItemPipeLine

流程图:

 

see :http://scrapy.readthedocs.io/en/latest/topics/item-pipeline.html

功能:

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用:

  • 验证爬取的数据(检查item包含某些字段,比如说name字段)

  • 查重(并丢弃)

  • 将爬取结果保存到文件或者数据库中

  • 清洗Html数据

每一个pipeline都是一个简单的python类,但是必须要实现既定的方法,才能启动应有的功能。

# -*- coding: utf-8 -*-
​
​
​
class BaseItemPipeline(object):
​
    def __init__(self):
        pass
​
    # 必须要实现的方法
    # 这个方法每次都会调用,是处理数据逻辑所在,可通过item参数获得到在spider已成功爬去的已封装的数据,
    # 通过不同的返回参数来区别不同的pipeline 流程控制.
    # 返回参数:
    # dict
    # Item(即参数item),或其子类
    # return a Twisted Deferred
    # raise DropItem 异常,以表示该item不需要被之后的pipline处理 即丢弃了改item
    def process_item(self, item, spider):
        # item (Item 对象) – 被爬取的item
        # spider (Spider 对象) – 爬取该item的spider
        # 这个方法必须返回一个 Item 对象,被丢弃的item将不会被之后的pipeline组件所处理。
        return item
​
    #可选实现的方法
    def open_spider(self, spider):
        # spider (Spider 对象) – 被开启的spider
        # 可选实现,当spider被开启时,这个方法被调用。
        pass
​
    # 可选实现的方法
    def close_spider(self, spider):
        # spider (Spider 对象) – 被关闭的spider
        # 可选实现,当spider被关闭时,这个方法被调用
        pass
​
    # 可选实现的方法
    # If present, this classmethod is called to create a pipeline instance from a Crawler.
    # It must return a new instance of the pipeline.
    # Crawler object provides access to all Scrapy core components like settings and signals;
    # it is a way for pipeline to access them and hook its functionality into Scrapy.
    @classmethod
    def from_crawler(cls, crawler):
        pass
​

启用一个pipeline

当完成以上的自定义ItemPipeline之后,需要在setting文件 启动该ItemPipeline.

 

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

这样就在数据处理过程 按照后面的整数按由小到大顺序执行itempipeline了。

顺序值的仅可在0--1000范围取整数。

 

2.例子程序:

 

1.将数据保存为json文件

import json
​
class JsonWriterPipeline(object):
​
    def open_spider(self, spider):
        self.file = open('items.jl', 'w')
​
    def close_spider(self, spider):
        self.file.close()
​
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

 

 

2.将数据写入到MongoDB

# 这个例子的主要说明如何使用 类方法from_crawler,并且如何清洗数据。

import pymongo
​
class MongoPipeline(object):
​
    collection_name = 'scrapy_items'
​
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
​
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    #打开数据库连接
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    #关闭数据库连接
    def close_spider(self, spider):
        self.client.close()
    #将数据写入数据库
    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item
      

 

3.

这个例子主要说明如何返回一个deferred类。

deferred 类 https://twistedmatrix.com/documents/current/core/howto/defer.html

import scrapy
import hashlib
from urllib.parse import quote
​
​
class ScreenshotPipeline(object):
    """Pipeline that uses Splash to render screenshot of
    every Scrapy item."""
​
    SPLASH_URL = "http://localhost:8050/render.png?url={}"
​
    def process_item(self, item, spider):
        encoded_item_url = quote(item["url"])
        screenshot_url = self.SPLASH_URL.format(encoded_item_url)
        request = scrapy.Request(screenshot_url)
        dfd = spider.crawler.engine.download(request, spider)
        dfd.addBoth(self.return_item, item)
        return dfd
​
    def return_item(self, response, item):
        if response.status != 200:
            # Error happened, return item.
            return item
​
        # Save screenshot to file, filename will be hash of url.
        url = item["url"]
        url_hash = hashlib.md5(url.encode("utf8")).hexdigest()
        filename = "{}.png".format(url_hash)
        with open(filename, "wb") as f:
            f.write(response.body)
​
        # Store filename in item.
        item["screenshot_filename"] = filename
        return item

 

3.总结:

在整个流程中处于item_pipeline 是已成功爬取到数据后对数据验证,清洗,已经保存的功能。

scrapy也有一些现成的pipeline已便使用。

See: https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=Image

  1. Files Pipeline

  2. Image Pipeline

  3. Media Pipeline

 

 

© 著作权归作者所有

共有 人打赏支持
炸鱼薯条
粉丝 0
博文 2
码字总数 2150
作品 0
天津
私信 提问
何时使用log4j的isDebugEnabled属性来进行日志记录?

我经常见到这个问题,到底使不使用idDebugEnabled属性。这个问题经常被争论,而焦点往往是性能。 答案很简单。既然有这个属性,当然是拿来使用的。但是使用的时候需要注意。 例如,在我的代码...

五大三粗
2015/08/25
0
0
对文本进行pos-tag

我想对文本进行pos-tag import nltk; file_object = open('E:\\practise\\Web1T5-Easy-1.1\\3grams\\3gm-0000.txt') try: for eachline in file_object: print eachline,; text = nltk.word_......

taolin2014
2014/05/28
1K
1
scrapy 报错, 怎么查?

2015-02-27 15:50:57+0800 [scrapy] INFO: Scrapy 0.12.0.2546 started (bot: robot) 2015-02-27 15:50:58+0800 [scrapy] DEBUG: Enabled extensions: TelnetConsole, SpiderContext, WebSer......

帖子列表
2015/03/01
1K
3
网站爬虫框架库 - Scrapy-Python

scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家、瓜子、链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的...

蓝黑色时代
2017/10/18
773
2
Scrapy爬虫(8)scrapy-splash的入门

scrapy-splash的介绍   在前面的博客中,我们已经见识到了Scrapy的强大之处。但是,Scrapy也有其不足之处,即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页,只能爬取静态...

jclian91
2018/03/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

多表查询

第1章 多表关系实战 1.1 实战1:省和市  方案1:多张表,一对多  方案2:一张表,自关联一对多 1.2 实战2:用户和角色 (比如演员和扮演人物)  多对多关系 1.3 实战3:角色和权限 (比如...

stars永恒
今天
7
0
求推广,德邦快递坑人!!!!

完全没想好怎么来吐槽自己这次苦逼的德邦物流过程了,只好来记一个流水账。 从寄快递开始: 2019年1月15日从 德邦物流 微信小app上下单,截图如下: 可笑的是什么,我预约的是17号上门收件,...

o0无忧亦无怖
昨天
7
0
Mac Vim配置

1.升级 vim   我自己 MacBook Pro 的系统还是 10.11 ,其自带的 vim 版本为 7.3 ,我们将其升至最新版: 使用 homebrew : brew install vim --with-lua --with-override-system-vim 这将下...

Pasenger
昨天
8
0
vmware安装Ubuntu上不了网?上网了安装不了net-tools,无法执行ifconfig?

1.重新设置网络适配器还是不行,如下指定nat 2.还需要指定共享网络,我是在无线环境下 3.无法执行ifconfig https://packages.ubuntu.com/bionic/net-tools到这个网站下载net-tools的deb文件...

noob_chr
昨天
6
0
解决SVN:E210007无法协商认证机制

svn:E210007 svn: Cannot negotiate authentication mechanism 执行下面代码即可 sudo yum install cyrus-sasl cyrus-sasl-plain cyrus-sasl-ldap...

临江仙卜算子
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部