文档章节

pyspider爬虫学习-文档翻译-index.md

sijinge
 sijinge
发布于 2017/09/04 20:55
字数 601
阅读 67
收藏 1
pyspider [![Build Status][Build Status]][Travis CI] [![Coverage Status][Coverage Status]][Coverage] [![Try][Try]][Demo]
========
一个基于Python的强大蜘蛛(网络爬虫)系统
A Powerful Spider(Web Crawler) System in Python. **[TRY IT NOW!][Demo]**

- Write script in Python #Python 编写脚本
- Powerful WebUI with script editor, task monitor, project manager and result viewer # 强大的WebUI实现脚本编写,任务监控,项目管理,结果展示
- [MySQL](https://www.mysql.com/), [MongoDB](https://www.mongodb.org/), [Redis](http://redis.io/), [SQLite](https://www.sqlite.org/), [Elasticsearch](https://www.elastic.co/products/elasticsearch); [PostgreSQL](http://www.postgresql.org/) with [SQLAlchemy](http://www.sqlalchemy.org/) as database backend #支持mysql,mongodb,Redis,SQLite,Elasticsearch,PostgreSQL,SQLAlchemy等多种数据库
- [RabbitMQ](http://www.rabbitmq.com/), [Beanstalk](http://kr.github.com/beanstalkd/), [Redis](http://redis.io/) and [Kombu](http://kombu.readthedocs.org/) as message queue #支持RabbitMQ,Beanstalk,Redis等多种消息队列
- Task priority, retry, periodical, recrawl by age, etc... #任务优先级,重试,定期,按年龄从爬等等
- Distributed architecture, Crawl Javascript pages, Python 2&3, etc... #分布式架构,js网页爬取,Python 2&3 等等

Tutorial: [http://docs.pyspider.org/en/latest/tutorial/](http://docs.pyspider.org/en/latest/tutorial/)  #教程
Documentation: [http://docs.pyspider.org/](http://docs.pyspider.org/)  #文档
Release notes: [https://github.com/binux/pyspider/releases](https://github.com/binux/pyspider/releases)  #发布说明

Sample Code #实例代码
-----------

```python
from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }
```

[![Demo][Demo Img]][Demo]


Installation #安装
------------

* `pip install pyspider`
* run command `pyspider`, visit [http://localhost:5000/](http://localhost:5000/)
#快速开始
Quickstart: [http://docs.pyspider.org/en/latest/Quickstart/](http://docs.pyspider.org/en/latest/Quickstart/)

#贡献
Contribute
----------

* Use It #使用它
* Open [Issue], send PR #发现[问题],并公开
* [User Group] #用户组
* [中文问答](http://segmentfault.com/t/pyspider)


TODO 备忘录
----

### v0.4.0

- [x] local mode, load script from file. #本地模式,从文件加载脚本
- [x] works as a framework (all components running in one process, no threads) #作为一个框架(所有组件都在一个进程中运行,没有其它线程)
- [x] redis 
- [x] shell mode like `scrapy shell`  #shell模式就像'scrapy shell'
- [ ] a visual scraping interface like [portia](https://github.com/scrapinghub/portia)#像[portia]一样的视觉抓取界面


### more 更多

- [x] edit script with vim via [WebDAV](http://en.wikipedia.org/wiki/WebDAV)#通过[WebDAV]编辑vim脚本


License 许可证
-------
Licensed under the Apache License, Version 2.0 #在Apache许可下的2.0版本


[Build Status]:         https://img.shields.io/travis/binux/pyspider/master.svg?style=flat #构建状态
[Travis CI]:            https://travis-ci.org/binux/pyspider #
[Coverage Status]:      https://img.shields.io/coveralls/binux/pyspider.svg?branch=master&style=flat #覆盖状态
[Coverage]:             https://coveralls.io/r/binux/pyspider #覆盖
[Try]:                  https://img.shields.io/badge/try-pyspider-blue.svg?style=flat #尝试
[Demo]:                 http://demo.pyspider.org/#实例
[Demo Img]:             imgs/demo.png #实例图片
[Issue]:                https://github.com/binux/pyspider/issues #问题
[User Group]:           https://groups.google.com/group/pyspider-users #用户群

© 著作权归作者所有

共有 人打赏支持
sijinge
粉丝 0
博文 41
码字总数 37230
作品 0
广州
架构师
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0
pyspider + RabbitMQ 使用记 - 上

接到一个爬虫任务,项目比较巨大,原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器,才知道之前的想法 low 爆了。pyspider GitHub 按照 GitHub 上的安装教程安装好以后,我...

xh4n3
2015/08/04
0
0
用PySpider搜集2017年高校招生章程

个人认为PySpider是一个十分容易上手而且功能强大的Python爬虫框架。支持多线程爬取、JS动态解析、出错重试、定时爬取等等的功能。最重要的是,它通过web提供了可操作界面,使用非常人性化。...

临江仙卜算子
05/15
0
0
网络爬虫08: PySpider爬虫框架

爬虫的基础知识到这里,已经可以暂时告一段落,接下来就是学会使用框架来写爬虫,用框架会使爬虫代码更加简洁。在这之前,我也了解了一下关于Python爬虫都有哪些框架 Python常用爬虫框架 1....

代码打碟手
09/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

计算卷积神经网络浮点数运算量

前言 本文主要是介绍了,给定一个卷积神经网络的配置之后,如何大概估算它的浮点数运算量。 相关代码:CalFlops,基于MXNet框架的 Scala 接口实现的一个计算MXNet网络模型运算量的demo。 正文...

Ldpe2G
今天
1
0
Sql语言与MySql数据库

1. 数据库简介 1. 数据库,就是存储数据的仓库,只能通过sql语言来访问,数据库也是一个文件系统。通常,MySQL、Oracle等数据库,也被称为关系型数据库,其保存的不仅仅只是数据,还包括数据...

江左煤郎
今天
1
0
IDEA 取消自动import .*

打开设置 > Editor > Code Style > Java > Scheme Default > Imports ① 将 Class count to use import with "*" 改为 99 (导入同一个包的类超过这个数值自动变为 * ) ② 将 Names count ......

乔老哥
今天
3
0
PostGIS学习笔记(开篇)

PostGIS事实上算是笔者开始写博客的第一篇内容。而事实上那篇博文的内容并不丰富,笔者对PostGIS的了解仍然不多,然而17年在OSGeo课程学习时对PostGIS又有了进一步了解,并逐步发现它的强大。...

胖胖雕
今天
3
0
【Centos】在nginx服务器中配置php和mysql

接上一章《【Centos】利用Vultr服务器和namesilo布网》(https://my.oschina.net/u/3776619/blog/2051986),在Centos中配置好nginx,并在iptables中开启了80端口,和为了远程mysql操作方便开...

yongh701
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部