文档章节

scrapy-安装和初步使用

深蓝苹果
 深蓝苹果
发布于 2014/06/25 11:06
字数 403
阅读 233
收藏 1

基于ubuntu的安装


1.相关支撑包

apt-get install build-essential;

apt-get install python-dev;

apt-get install libxml2-dev;

apt-get install libxslt1-dev;

apt-get install python-setuptools;


2.安装scrapy

easy_install Scrapy;


3.测试安装效果

scrapy shell http://ziki.cn


4.创建工程

scrapy startproject tutorial


5.个性化

* 定义要抓取的字段

在 tutorial/tutorial/items.py 已有的类中加入代码:

title = Field()

link = Field()

    desc = Field()

* 要建立一个Spider,你必须为scrapy.spider.BaseSpider创建一个子类,并确定三个主要的、强制的属性:

    name:爬虫的识别名,它必须是唯一的,在不同的爬虫中你必须定义不同的名字.

    start_urls:爬虫开始爬的一个URL列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些URLS开始。其他子URL将会从这些起始URL中继承性生成。

    parse():爬虫的方法,调用时候传入从每一个URL传回的Response对象作为参数,response将会是parse方法的唯一的一个参数,

    

    这个方法负责解析返回的数据、匹配抓取的数据(解析为item)并跟踪更多的URL。

    在 tutorial/tutorial/spiders/ 下新增文件 domz_spider.py (文件名基本任意)


        from scrapy.spider import BaseSpider

        class DmozSpider(BaseSpider):

            name = "dmoz"

            allowed_domains = ["dmoz.org"]

            start_urls = [

                "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

                "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

            ]

            def parse(self, response):

                filename = response.url.split("/")[-2]

                open(filename, 'wb').write(response.body)


6.执行工程

在 tutorial/ 下执行 scrapy crawl dmoz                

                

FQA:

Q:运行工程时,提示找不到 service_identity 模块

A:执行easy_install service_identity



参考:

1.安装 http://blog.ziki.cn/1190.html

2.运行 http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html


© 著作权归作者所有

共有 人打赏支持
深蓝苹果
粉丝 32
博文 92
码字总数 31944
作品 0
深圳
程序员
win7 下安装scrapy遇的坑

一. 安装 由于scrapy进行网络抓取的便捷与强大功能,准备在win7下安装该框架,但遇到很多麻烦。 解决方法: 二. 使用 在初步使用scrapy框架时,也出现一些问题:scrapy startproject tutoria...

fight123
2016/11/12
16
0
python scrapy OpenSSL安装不成功

我是python新手,想尝试做爬虫,初步学习后准备安装scrapy。机器是64位,系统为win7,python是python-2.7.9.amd64.msi。scrapy装的是Scrapy-0.24.5.tar.gz 按照教程需要安装依赖包。其他都安...

fengzihh
2015/04/18
8.9K
5
小猪的Python学习之旅 —— 4.Scrapy爬虫框架初体验

引言: 经过前面两节的学习,我们学会了使用urllib去模拟请求,使用 Beautiful Soup和正则表达式来处理网页以获取我们需要的数据。 对于经常重复用到的代码,我们都会单独抽取成自己的模块,...

coder_pig
07/04
0
0
Scrapy入门教程

在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。 我们将使用开放目录项目(dmoz)作为抓取的例子。 这篇入门教程将引导你完成如下任务: 创建一个新的...

涩女郎
2016/08/27
23
0
7个Python爬虫实战项目教程

有很多小伙伴在开始学习Python的时候,都特别期待能用Python写一个爬虫脚本,实验楼上有不少python爬虫的课程,这里总结几个实战项目,如果你想学习Python爬虫的话,可以挑选感兴趣的学习哦;...

实验楼
2017/12/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

马太效应

马太效应

yizhichao
14分钟前
0
0
69.for while循环 continue break exit

20.10 for循环 20.11/20.12 while循环 20.13 break跳出循环 20.14 continue结束本次循环 20.15 exit退出整个脚本 扩展 select用法 http://www.apelearn.com/bbs/thread-7950-1-1.html 20.10......

王鑫linux
22分钟前
0
0
完整的软件开发流程是怎样的

在it圈混迹了这么久,做过各种各样的工作。但是我确一直不知道一个软件从无到有到底是怎么开发的。于是就产生了强烈的好奇心:一个软件产品的结果为什么是这样?为什么开发的速度不能再快一点...

TreasureWe
29分钟前
0
0
深度学习与图像处理之:人像背景虚化

简单实现思路: 对图像内容进行分割,提取人像 对图像背景进行模糊化处理 将人像和背景重新合成 在这里,使用DeepLabV3模型对图像内容进行分割并提取人像,实现的代码如下: import numpy a...

IOTService
31分钟前
0
0
20180918上课截图

小丑鱼00
38分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部