文档章节

python爬虫scrapy的官方demo的运行

送你一条花内裤
 送你一条花内裤
发布于 2016/04/06 10:19
字数 489
阅读 124
收藏 2

前言

scrapy是一个python爬虫框架,为了方便学习开发者在github上提供了一个样例 。本文就是描述了运行这个demo过程出现的一些问题及解决办法

1.将这个github项目down到本地

  • 在github上fork这个项目,这样能够获得到改项目ssh的git链接。 在centos系统上创建项目文件夹,在文件夹内执行
  • git clone fork得到的ssh链接
出现了拒绝访问的错误

原因没有生成ssh-key,没有与github进行访问绑定

“ssh-keygen -t rsa -C "your_email@youremail.com"”,your_email是你的email

在github上新添加一个ssh-key ,将生成的~/.ssh/id_rsa.pub的内容复制进去 测试ssh key是否成功,使用命令

ssh -T git@github.com
git config --global user.name "your name" //配置用户名
git config --global user.email "your email" //配置email

此时执行git clone ssh链接, 成功将项目down到了本地

2.安装pip

  • pip是一个python的模块安装工具
  • 得到压缩包
wget https://pypi.python.org/packages/source/p/pip/pip-8.1.1.tar.gz#md5=6b86f11841e89c8241d689956ba99ed7

进入目录python setup.py install 进行安装

3.安装 scrapy

pip install scrapy

出现一系列错误

fatal error: Python.h: No such file or directory
yum install python-devel
fatal error: ffi.h: No such file or directory
yum install libffi libffi-devel
fatal error: openssl/e_os2.h: No such file or directory
yum install openssl-devel
pip install scrapy

success!!! :)

4.安装爬虫

进入项目目录

  • 安装dmoz爬虫
python setup.py install
  • 测试是否成功
scrapy list
  • 运行爬虫
scrapy crawl dmoz
  • 将结果保存为json文件
scrapy crawl dmoz -o item.json -t json

参考链接

  1. fatal error: Python.h: No such file or directory
  2. CentOS6.2下面安装使用Scrapy遇到的一些错误
  3. fatal error: openssl/aes.h: No such file or directory
  4. github入门

© 著作权归作者所有

送你一条花内裤

送你一条花内裤

粉丝 9
博文 14
码字总数 2787
作品 0
济南
程序员
私信 提问
Scrapy1.4最新官方文档总结 1 介绍·安装

Scrapy1.4最新官方文档总结 1 介绍·安装 Scrapy1.4最新官方文档总结 2 Tutorial Scrapy1.4最新官方文档总结 3 命令行工具 《Learning Scrapy》这本书是2016年1月出版的,作者使用的版本是S...

seancheney
2017/10/02
0
0
Python爬虫框架Scrapy学习笔记

Python爬虫框架Scrapy学习笔记 糖宝Python 2019-03-31 18:15 scrapy.png 本文主要内容针对Scrapy有初步了解的同学。结合作者的实际项目中遇到的一些问题,汇成本文。 之后会写一些具体的爬虫...

糖宝lsh
03/31
60
0
高级爬虫(一):Scrapy爬虫框架的安装

Hi 小伙伴们差不多有半个月没有更新干货了,一直有点忙,而且这中间还有曲折过程,也就没有更新文章. 但今天无论如何也要更新一篇文章,接下来是爬虫高级篇重点讲解的地方! 最近会连载Scrap...

Python绿色通道
2018/04/22
0
0
使用python,scrapy写(定制)爬虫的经验,资料,杂。

近期找工作略不顺。技术无用。晚上写下了这点东西。 首先说下最近在找工作的x的大概相关技术加点路线。py 3年+,linux日常熟练,限于不擅web、手机app开发,一直无太好的可展示的东西。前段时...

斑ban
2013/12/27
18.1K
7
Scrapy:根据目录来下载github上的文件

写在前面 最近在学习Python的语法,刷刷LeetCode什么的。熟悉之后,就想着写一个爬虫实际运用一下。 如何入门 Python 爬虫? - 高野良的回答 - 知乎 知乎了一下,然后看了scrapy的文档 ,就开...

ditclear
2018/06/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何有效地计算JavaScript中对象的键/属性数量?

计算对象的键/属性数的最快方法是什么? 是否可以在不迭代对象的情况下执行此操作? 即不做 var count = 0;for (k in myobj) if (myobj.hasOwnProperty(k)) count++; (Firefox确实提供了一...

技术盛宴
17分钟前
2
0
百度网址安全中心拦截解除的办法分享

临近2019年底,客户的公司网站被百度网址安全中心拦截了,公司网站彻底打不开了,影响范围很大,于是通过朋友介绍找到我们SINE安全公司寻求帮忙解封,关于如何解除百度的安全拦截提示,下面就...

网站安全
29分钟前
3
0
Tomcat8源码分析-启动流程-start方法

上一篇:Tomcat8源码分析-启动流程-load方法 前面讲了启动流程中的Catalina.load,进一步调用绝大部分组建的init操作,主要完成对server.xml解析,并根据解析的结果结合设置的Rule(规则)构造...

特拉仔
37分钟前
6
0
Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍

Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍 轻拍标签栏中的About标签,进入关于页面,如图1.8和图1.9所示。它是对应用程序介绍的页面。 该页面源自Views文件夹中的AboutPage.x...

大学霸
43分钟前
3
0
一步一步理解Impala query profile(一)

很多Impala用户不知道如何阅读Impala query profile来了解一个查询背后正在执行的操作,从而在此基础上对查询进行调优以充分发挥查询的性能。因此我想写一篇简单的文章来分享我的经验,并希望...

九州暮云
45分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部