文档章节

pyspider爬虫学习-文档翻译-index.md

sijinge
 sijinge
发布于 2017/09/04 20:55
字数 601
阅读 73
收藏 1
pyspider [![Build Status][Build Status]][Travis CI] [![Coverage Status][Coverage Status]][Coverage] [![Try][Try]][Demo]
========
一个基于Python的强大蜘蛛(网络爬虫)系统
A Powerful Spider(Web Crawler) System in Python. **[TRY IT NOW!][Demo]**

- Write script in Python #Python 编写脚本
- Powerful WebUI with script editor, task monitor, project manager and result viewer # 强大的WebUI实现脚本编写,任务监控,项目管理,结果展示
- [MySQL](https://www.mysql.com/), [MongoDB](https://www.mongodb.org/), [Redis](http://redis.io/), [SQLite](https://www.sqlite.org/), [Elasticsearch](https://www.elastic.co/products/elasticsearch); [PostgreSQL](http://www.postgresql.org/) with [SQLAlchemy](http://www.sqlalchemy.org/) as database backend #支持mysql,mongodb,Redis,SQLite,Elasticsearch,PostgreSQL,SQLAlchemy等多种数据库
- [RabbitMQ](http://www.rabbitmq.com/), [Beanstalk](http://kr.github.com/beanstalkd/), [Redis](http://redis.io/) and [Kombu](http://kombu.readthedocs.org/) as message queue #支持RabbitMQ,Beanstalk,Redis等多种消息队列
- Task priority, retry, periodical, recrawl by age, etc... #任务优先级,重试,定期,按年龄从爬等等
- Distributed architecture, Crawl Javascript pages, Python 2&3, etc... #分布式架构,js网页爬取,Python 2&3 等等

Tutorial: [http://docs.pyspider.org/en/latest/tutorial/](http://docs.pyspider.org/en/latest/tutorial/)  #教程
Documentation: [http://docs.pyspider.org/](http://docs.pyspider.org/)  #文档
Release notes: [https://github.com/binux/pyspider/releases](https://github.com/binux/pyspider/releases)  #发布说明

Sample Code #实例代码
-----------

```python
from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }
```

[![Demo][Demo Img]][Demo]


Installation #安装
------------

* `pip install pyspider`
* run command `pyspider`, visit [http://localhost:5000/](http://localhost:5000/)
#快速开始
Quickstart: [http://docs.pyspider.org/en/latest/Quickstart/](http://docs.pyspider.org/en/latest/Quickstart/)

#贡献
Contribute
----------

* Use It #使用它
* Open [Issue], send PR #发现[问题],并公开
* [User Group] #用户组
* [中文问答](http://segmentfault.com/t/pyspider)


TODO 备忘录
----

### v0.4.0

- [x] local mode, load script from file. #本地模式,从文件加载脚本
- [x] works as a framework (all components running in one process, no threads) #作为一个框架(所有组件都在一个进程中运行,没有其它线程)
- [x] redis 
- [x] shell mode like `scrapy shell`  #shell模式就像'scrapy shell'
- [ ] a visual scraping interface like [portia](https://github.com/scrapinghub/portia)#像[portia]一样的视觉抓取界面


### more 更多

- [x] edit script with vim via [WebDAV](http://en.wikipedia.org/wiki/WebDAV)#通过[WebDAV]编辑vim脚本


License 许可证
-------
Licensed under the Apache License, Version 2.0 #在Apache许可下的2.0版本


[Build Status]:         https://img.shields.io/travis/binux/pyspider/master.svg?style=flat #构建状态
[Travis CI]:            https://travis-ci.org/binux/pyspider #
[Coverage Status]:      https://img.shields.io/coveralls/binux/pyspider.svg?branch=master&style=flat #覆盖状态
[Coverage]:             https://coveralls.io/r/binux/pyspider #覆盖
[Try]:                  https://img.shields.io/badge/try-pyspider-blue.svg?style=flat #尝试
[Demo]:                 http://demo.pyspider.org/#实例
[Demo Img]:             imgs/demo.png #实例图片
[Issue]:                https://github.com/binux/pyspider/issues #问题
[User Group]:           https://groups.google.com/group/pyspider-users #用户群

© 著作权归作者所有

共有 人打赏支持
sijinge
粉丝 0
博文 41
码字总数 37230
作品 0
广州
架构师
私信 提问
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0
pyspider + RabbitMQ 使用记 - 上

接到一个爬虫任务,项目比较巨大,原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器,才知道之前的想法 low 爆了。pyspider GitHub 按照 GitHub 上的安装教程安装好以后,我...

xh4n3
2015/08/04
0
0
OS X安装pyspider遇到问题

新手一个,学完python,想玩儿爬虫,可安装pyspider的时候报错不知道怎么回事,于是来请教大牛,截图如下:(另外我是从命令行输入 pip install pyspider 来安装的)...

AaronYun
2015/08/07
697
1
用PySpider搜集2017年高校招生章程

个人认为PySpider是一个十分容易上手而且功能强大的Python爬虫框架。支持多线程爬取、JS动态解析、出错重试、定时爬取等等的功能。最重要的是,它通过web提供了可操作界面,使用非常人性化。...

临江仙卜算子
05/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Ext grid 渲染

// 单元格字体颜色渲染function renderer_Meta_useStatus(value, cellmeta, record,rowIndex, columnIndex, store){ var color = ""; if("空闲"==value){ color = "green";......

MoksMo
25分钟前
4
0
log4j2在spring中的配置

<?xml version="1.0" encoding="UTF-8"?><!--日志级别以及优先级排序: OFF > FATAL > ERROR > WARN > INFO > DEBUG > TRACE > ALL --><!--Configuration后面的status,这个用于设置l......

TonyTaotao
31分钟前
3
0
java 中间变量缓存机制(i++,++i)

public class Test { public static void main(String[] args) { int i = 0; i = i ++ ; System.out.println(i); } } 答案是 0 如果是 i = ++......

shzwork
38分钟前
5
0
初识多线程及其原理-笔记

什么情况下应该使用多线程? 通过并行计算提高程序执行性能 需要等待网络、I/O响应导致耗费大量的执行时间, 可以采用异步线程的方式来减少阻塞 tomcat7 以前的io模型 客户端阻塞 线程级别阻...

Java搬砖工程师
49分钟前
2
0
webpack4 css打包、压缩、分离、去重等优化配置详解

Webpack 4 目前版本已经到了4.27 相较于前面的版本还是有一些改动的,具体可以参考升级指南 迁移到新版本 这里只介绍 css 的 打包、压缩、分离、去重 的方法; 不懂的或者有更优的方案,欢迎...

zerokb-小浪
53分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部