文档章节

阶段性理解scrapy

cs_sharp
 cs_sharp
发布于 2015/10/29 18:09
字数 162
阅读 211
收藏 3

0)安装 scrapy

pip install scrapy


1)创建一个项目

scrapy startproject dmoz

   结构

├── dmoz
│   ├── __init__.py 
│   ├── items.py   			# 可以把items.py看作是mvc中的model
│   ├── pipelines.py		# pipline俗称管道,这个文件主要用来把我们获取的item类型存入mongodb
│   ├── settings.py			# 需要设置一些常量,例如mongodb的数据库名,数据库地址和数据库端口号等等。 
│   └── spiders				# 爬虫Folder
│       └── __init__.py		
└── scrapy.cfg				# 部署


2)采集

scrapy shell    #交换学习模式


scrapy crawl dmoz #自动采集模式


3)解析

response.xpath("/html/head/title")
response.css("title")


4)提取

response.css("title").extract() #全部提取
response.css("title").re('(\w+)') #根据正则提取


© 著作权归作者所有

cs_sharp
粉丝 57
博文 151
码字总数 17766
作品 0
北京
后端工程师
私信 提问
scrapy elasticsearch

1.环境搭建 2.爬去真实数据 a.正则表达式 b.深度优先和广度优先遍历算法 c.url的去重的常见策略 3.scrapy 突破反爬虫技术 图片验证码 IP 访问频率限制 user-agent随机切换 4.scrapy 进阶 sp...

sxiaopeng
2017/11/15
32
0
Scrapy 框架基本了解以及Spiders爬虫

Scrapy 框架基本了解以及Spiders爬虫,首先我们先了解下Scrapy 框架基本原理,然后我们用一个简单的案例来介绍Scrapy的使用。 Scrapy 框架基本了解: 1、Scrapy是用纯Python实现一个为了爬取...

博行天下
2017/11/28
0
0
Scrapy的架构初探

Scrapy,Python开发的一个web抓取框架。 1,引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库。单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想法...

fullerhua
2016/06/12
710
4
观后小结:技术演讲 - WebCrawling and Metadata Extractors...

演讲内容摘要: Web crawling is a hard problem and the web is messy. There is no shortage of semantic web standards -- basically, everyone has one. How do you make sense of the n......

要飞得更高
2013/05/19
118
2
Python爬虫框架Scrapy教程(1)—入门

最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题、时间、正文等)。问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准。这...

蛀虫
2015/08/29
5K
0

没有更多内容

加载失败,请刷新页面

加载更多

安全组和云防火墙的区别

前言 熟悉云平台的朋友可能都会注意到这样一个事情:无论公有云还是私有云,创建虚拟机的时候都需要选择安全组,来对虚拟机进行安全防护;有的云平台在VPC里,还能选择防火墙,ZStack在3.6版...

ZStack社区版
38分钟前
3
0
教育性app开发的重要性和好处

在这个精通技术的世界中,流行的app主导着无聊的教育系统。当我们将技术和教育结合在一起时,它将带来当代以及强大的学习资源。因此,将教育移动app集成到您的学习过程中,并根据自己的信念把...

a429011717
39分钟前
4
0
IE6/7/8如何兼容CSS3属性

本文转载于:专业的前端网站➩IE6/7/8如何兼容CSS3属性 最近在工作中总是要求IE8兼容CSS3属性,在网上搜了搜主要是引入了一个htc文件(ie-css3.htc或者PIE.htc。个人认为这两个文件的作用差不...

前端老手
55分钟前
5
0
手把手教你ALLEGRO的约束规则的设置教程!

约束规则的设置 分三步, 定义规则(一、基本约束规则设置:1、线间距设置;2、线宽设置;3、设置过孔;4、区域约束规则设置;5、设置阻抗;6、设置走线的长度范围;7、设置等长:7.1、不过电阻的NET 等...

demyar
56分钟前
5
0
完美解决H5滚动滑动穿透方案:不使用系统滚动

网上有很多黑科技解决这个问题,都不是从根本去解决,例如通过js控制弹出时html加上position:fixed; 弹窗关闭后再去掉该样式,总觉得不太对,像是打补丁。 今天终于找到了滚动穿透的原因和完...

未来cc
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部