文档章节

安装Scrapy开发环境

小致Daddy
 小致Daddy
发布于 2016/09/21 11:36
字数 739
阅读 710
收藏 1

强烈建议在Linux环境下进行开发,Windows环境会出现许多莫名其妙的问题

CentOS7安装Scrapy

首先安装libxml依赖libxml2,libxml2主要提供解析xpath的组件:

yum install libxml2 libxml2-devel

然后安装scrapy:

pip install scrapy

执行如下:

(scrapy_venv) [liuyuantao@localhost venv-repo]$ pip install scrapy
Collecting scrapy
  Downloading Scrapy-1.1.2-py2.py3-none-any.whl (295kB)
    100% |████████████████████████████████| 296kB 263kB/s 
Collecting cssselect>=0.9 (from scrapy)
  Downloading cssselect-0.9.2-py2.py3-none-any.whl
Collecting six>=1.5.2 (from scrapy)
  Downloading six-1.10.0-py2.py3-none-any.whl
Collecting Twisted>=10.0.0 (from scrapy)
  Downloading Twisted-16.4.1.tar.bz2 (3.0MB)
    100% |████████████████████████████████| 3.0MB 318kB/s 
Collecting queuelib (from scrapy)
  Downloading queuelib-1.4.2-py2.py3-none-any.whl
Collecting service-identity (from scrapy)
  Downloading service_identity-16.0.0-py2.py3-none-any.whl
Collecting parsel>=0.9.3 (from scrapy)
  Downloading parsel-1.0.3-py2.py3-none-any.whl
Collecting PyDispatcher>=2.0.5 (from scrapy)
  Downloading PyDispatcher-2.0.5.tar.gz
Collecting lxml (from scrapy)
  Downloading lxml-3.6.4-cp27-cp27mu-manylinux1_x86_64.whl (4.2MB)
    100% |████████████████████████████████| 4.2MB 148kB/s 
Collecting pyOpenSSL (from scrapy)
  Downloading pyOpenSSL-16.1.0-py2.py3-none-any.whl (43kB)
    100% |████████████████████████████████| 51kB 6.8MB/s 
Collecting w3lib>=1.14.2 (from scrapy)
  Downloading w3lib-1.15.0-py2.py3-none-any.whl
Collecting zope.interface>=3.6.0 (from Twisted>=10.0.0->scrapy)
  Downloading zope.interface-4.3.2.tar.gz (143kB)
    100% |████████████████████████████████| 143kB 99kB/s 
Collecting attrs (from service-identity->scrapy)
  Downloading attrs-16.2.0-py2.py3-none-any.whl
Collecting pyasn1-modules (from service-identity->scrapy)
  Downloading pyasn1_modules-0.0.8-py2.py3-none-any.whl
Collecting pyasn1 (from service-identity->scrapy)
  Downloading pyasn1-0.1.9-py2.py3-none-any.whl
Collecting cryptography>=1.3.4 (from pyOpenSSL->scrapy)
  Downloading cryptography-1.5.tar.gz (400kB)
    100% |████████████████████████████████| 409kB 294kB/s 
Requirement already satisfied (use --upgrade to upgrade): setuptools in ./scrapy_venv/lib/python2.7/site-packages (from zope.interface>=3.6.0->Twisted>=10.0.0->scrapy)
Collecting idna>=2.0 (from cryptography>=1.3.4->pyOpenSSL->scrapy)
  Downloading idna-2.1-py2.py3-none-any.whl (54kB)
    100% |████████████████████████████████| 61kB 2.4MB/s 
Collecting enum34 (from cryptography>=1.3.4->pyOpenSSL->scrapy)
  Downloading enum34-1.1.6-py2-none-any.whl
Collecting ipaddress (from cryptography>=1.3.4->pyOpenSSL->scrapy)
  Downloading ipaddress-1.0.17-py2-none-any.whl
Collecting cffi>=1.4.1 (from cryptography>=1.3.4->pyOpenSSL->scrapy)
  Downloading cffi-1.8.3-cp27-cp27mu-manylinux1_x86_64.whl (386kB)
    100% |████████████████████████████████| 389kB 255kB/s 
Collecting pycparser (from cffi>=1.4.1->cryptography>=1.3.4->pyOpenSSL->scrapy)
  Downloading pycparser-2.14.tar.gz (223kB)
    100% |████████████████████████████████| 225kB 1.8MB/s 
Building wheels for collected packages: Twisted, PyDispatcher, zope.interface, cryptography, pycparser
  Running setup.py bdist_wheel for Twisted ... done
  Stored in directory: /home/liuyuantao/.cache/pip/wheels/0e/53/62/e7b4cea7df9113fb2818b224eb5d143be981568d9c43057a0a
  Running setup.py bdist_wheel for PyDispatcher ... done
  Stored in directory: /home/liuyuantao/.cache/pip/wheels/86/02/a1/5857c77600a28813aaf0f66d4e4568f50c9f133277a4122411
  Running setup.py bdist_wheel for zope.interface ... done
  Stored in directory: /home/liuyuantao/.cache/pip/wheels/8c/57/fc/dd66620d3ad2b0e587710faee345ebfd6b75329ebb780df703
  Running setup.py bdist_wheel for cryptography ... done
  Stored in directory: /home/liuyuantao/.cache/pip/wheels/d4/98/43/a428a8aed7285f934d18efd787647455d7ef9a9dda81f22839
  Running setup.py bdist_wheel for pycparser ... done
  Stored in directory: /home/liuyuantao/.cache/pip/wheels/9b/f4/2e/d03e949a551719a1ffcb659f2c63d8444f4df12e994ce52112
Successfully built Twisted PyDispatcher zope.interface cryptography pycparser
Installing collected packages: cssselect, six, zope.interface, Twisted, queuelib, attrs, pyasn1, pyasn1-modules, idna, enum34, ipaddress, pycparser, cffi, cryptography, pyOpenSSL, service-identity, lxml, w3lib, parsel, PyDispatcher, scrapy
Successfully installed PyDispatcher-2.0.5 Twisted-16.4.1 attrs-16.2.0 cffi-1.8.3 cryptography-1.5 cssselect-0.9.2 enum34-1.1.6 idna-2.1 ipaddress-1.0.17 lxml-3.6.4 parsel-1.0.3 pyOpenSSL-16.1.0 pyasn1-0.1.9 pyasn1-modules-0.0.8 pycparser-2.14 queuelib-1.4.2 scrapy-1.1.2 service-identity-16.0.0 six-1.10.0 w3lib-1.15.0 zope.interface-4.3.2

Linux环境的scrapy安装完毕。

Windows安装Scrapy

通常在Windows下面安装失败的原因是因为lxml,虽然可以用pip安装lxml,但因为lxml有很多依赖的软件,其他系统都是自带的,但Windows没有,所以我们还是老老实实使用lxml专门为Windows提供的安装包来安装。

首先需要安装pywin32,下载地址,下载完点击安装即可。

安装OpenSSL

pip install pyOpenSSL

重点!!!lxml的官方提供了whl的安装包,在lxml的官方可以找到或者点击下载地址即可,然后执行(最好是使用管理员的cmd执行)

pip install lxml-3.6.4-cp27-cp27m-win_amd64.whl

最后我们执行

pip install Scrapy

 

© 著作权归作者所有

小致Daddy

小致Daddy

粉丝 182
博文 553
码字总数 592128
作品 0
济南
技术主管
私信 提问
Mac环境Python3.x/Python2.x安装第三方库,比如Pillow、Scrapy等

前言 Mac环境下虽然是系统自带Python2.x,但是我们往往都会使用最新的Python3.x版本进行Python编程,所以必将会导致我们的Mac上面有Python2.x/Python3.x两个版本,这个给我们安装第三方和使用...

摸着石头过河_崖边树
2017/11/15
0
0
支付宝爬虫(Python-Scrapy版本)

更新轨迹 Time-Line: 2017-11-28: 发布到博客中.原先一直在github上维护文档 2017-11-19: 更新一些BUG和优化了部分逻辑.(双十一期间发现支付宝更新了一小部分页面细节,改动了一点代码) 2017-...

NullSpider
2017/11/29
0
0
django-dynamic-scraper(DDS)网页抓取环境安装搭建

之前了解了scrapy的强大和速率的惊人,django的便捷,苦于没有机会真正的接触,前几天大哥让研究一下这个框架,wow,DDS强大的把这两个得力的工具整合到了一起,这样只需简单的安装和配置,就...

RocZhang
2013/11/11
2.7K
0
通过scrapy爬取一号店商品信息

本文为作者原创转载请注明出处(silvasong:http://my.oschina.net/sojie/admin/edit-blog?blog=653199) 前面的文章对scrapy的源码进行简单的分析,这里我将通过一个简单的例子介绍怎样使用s...

SilvaSong
2016/04/05
2.1K
10
xiyouMc/PornHubBot

免责声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可使用于商业和个人其他意图。若使用不当,均由个人承担。 简介 项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链...

xiyouMc
2017/04/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

作为一个(IT)程序员!聊天没有话题?试试这十二种技巧

首先呢?我是一名程序员,经常性和同事没话题。 因为每天都会有自己的任务要做,程序员对于其他行业来说;是相对来说比较忙的。你会经常看到程序员在发呆、调试密密麻麻代码、红色报错发呆;...

小英子wep
今天
14
0
【SpringBoot】产生背景及简介

一、SpringBoot介绍 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程,该框架使用了特定的方式来进行配置,从而使开发人员不再需要...

zw965
今天
4
0
简述并发编程分为三个核心问题:分工、同步、互斥。

总的来说,并发编程可以总结为三个核心问题:分工、同步、互斥。 所谓分工指的是如何高效地拆解任务并分配给线程,而同步指的是线程之间如何协作,互斥则是保证同一时刻只允许一个线程访问共...

dust8080
今天
6
0
OSChina 周四乱弹 —— 当你简历注水但还是找到了工作

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @花间小酌 :#今日歌曲推荐# 分享成龙的单曲《男儿当自强》。 《男儿当自强》- 成龙 手机党少年们想听歌,请使劲儿戳(这里) @hxg2016 :刚在...

小小编辑
今天
3.3K
22
靠写代码赚钱的一些门路

作者 @mezod 译者 @josephchang10 如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。 今天给大家分享一个精彩的 GitHub 库,这个库整理...

高级农民工
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部