文档章节

scrapy-安装和初步使用

深蓝苹果
 深蓝苹果
发布于 2014/06/25 11:06
字数 403
阅读 235
收藏 1

基于ubuntu的安装


1.相关支撑包

apt-get install build-essential;

apt-get install python-dev;

apt-get install libxml2-dev;

apt-get install libxslt1-dev;

apt-get install python-setuptools;


2.安装scrapy

easy_install Scrapy;


3.测试安装效果

scrapy shell http://ziki.cn


4.创建工程

scrapy startproject tutorial


5.个性化

* 定义要抓取的字段

在 tutorial/tutorial/items.py 已有的类中加入代码:

title = Field()

link = Field()

    desc = Field()

* 要建立一个Spider,你必须为scrapy.spider.BaseSpider创建一个子类,并确定三个主要的、强制的属性:

    name:爬虫的识别名,它必须是唯一的,在不同的爬虫中你必须定义不同的名字.

    start_urls:爬虫开始爬的一个URL列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些URLS开始。其他子URL将会从这些起始URL中继承性生成。

    parse():爬虫的方法,调用时候传入从每一个URL传回的Response对象作为参数,response将会是parse方法的唯一的一个参数,

    

    这个方法负责解析返回的数据、匹配抓取的数据(解析为item)并跟踪更多的URL。

    在 tutorial/tutorial/spiders/ 下新增文件 domz_spider.py (文件名基本任意)


        from scrapy.spider import BaseSpider

        class DmozSpider(BaseSpider):

            name = "dmoz"

            allowed_domains = ["dmoz.org"]

            start_urls = [

                "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

                "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

            ]

            def parse(self, response):

                filename = response.url.split("/")[-2]

                open(filename, 'wb').write(response.body)


6.执行工程

在 tutorial/ 下执行 scrapy crawl dmoz                

                

FQA:

Q:运行工程时,提示找不到 service_identity 模块

A:执行easy_install service_identity



参考:

1.安装 http://blog.ziki.cn/1190.html

2.运行 http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html


© 著作权归作者所有

共有 人打赏支持
深蓝苹果
粉丝 33
博文 93
码字总数 32053
作品 0
深圳
程序员
私信 提问
win7 下安装scrapy遇的坑

一. 安装 由于scrapy进行网络抓取的便捷与强大功能,准备在win7下安装该框架,但遇到很多麻烦。 解决方法: 二. 使用 在初步使用scrapy框架时,也出现一些问题:scrapy startproject tutoria...

fight123
2016/11/12
16
0
python scrapy OpenSSL安装不成功

我是python新手,想尝试做爬虫,初步学习后准备安装scrapy。机器是64位,系统为win7,python是python-2.7.9.amd64.msi。scrapy装的是Scrapy-0.24.5.tar.gz 按照教程需要安装依赖包。其他都安...

fengzihh
2015/04/18
11.6K
5
Scrapy入门教程

在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。 我们将使用开放目录项目(dmoz)作为抓取的例子。 这篇入门教程将引导你完成如下任务: 创建一个新的...

涩女郎
2016/08/27
23
0
小猪的Python学习之旅 —— 4.Scrapy爬虫框架初体验

引言: 经过前面两节的学习,我们学会了使用urllib去模拟请求,使用 Beautiful Soup和正则表达式来处理网页以获取我们需要的数据。 对于经常重复用到的代码,我们都会单独抽取成自己的模块,...

coder_pig
2018/07/04
0
0
Win7 64bit 安装爬虫Scrapy

安装Scrapy进过的坑 在学习爬虫的时候,也上网搜过不少相关教程,最终决定选择在Linux上开发,只能用虚拟机了,但是虚拟机比较卡,也比较占用系统资源,所以决定尝试在Windows win7上安装爬虫...

Listen_ing
2016/11/30
375
0

没有更多内容

加载失败,请刷新页面

加载更多

CDH5动静态资源池配置与回滚

关于动态 静态资源池的配置以前都有提过,可以从以下几篇了解: YARN动态资源池配置案例 https://yq.aliyun.com/ziliao/346856# Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数 Hadoop...

hblt-j
6分钟前
0
0
WordPress仿站实战教程

有一个月没有写blog了,一直在学习wordpress的知识,现在能够进行简单的政府企业门户网站的仿制,wordpress的主题订制,一般是对前端要求比较高,wordpress学会了,建站还是非常的快的。下面...

临江仙卜算子
9分钟前
0
0
图像库stb_image

https://github.com/nothings/stb 目前一般主流的图像格式也就是bmp,jpg,png,tga,dds,除了DDS一般是给DX用的,虽然一堆OpenGL程序也有用的,但是我一般只用png和tga, png不用说了,带a...

robslove
35分钟前
1
0
Spring 事务提交回滚源码解析

前言 在上篇文章 Spring 事务初始化源码分析 中分析了 Spring 事务初始化的一个过程,当初始化完成后,Spring 是如何去获取事务,当目标方法异常后,又是如何进行回滚的,又或是目标方法执行...

TSMYK
54分钟前
2
0
百度黄埔学院将培养一批首席AI架构师,为“国之重器”赋能

深度学习高端人才不仅是AI发展的重要养分,也是企业转型AI巨大推动力。2019年1月19日,百度黄埔学院——深度学习架构师培养计划在百度科技园举行开学典礼,深度学习技术及应用国家工程实验室...

深度学习之桨
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部