文档章节

pyspider爬虫学习-文档翻译-index.md

sijinge
 sijinge
发布于 2017/09/04 20:55
字数 601
阅读 313
收藏 1

码上生花,ECharts 作品展示赛正式启动!>>>

pyspider [![Build Status][Build Status]][Travis CI] [![Coverage Status][Coverage Status]][Coverage] [![Try][Try]][Demo]
========
一个基于Python的强大蜘蛛(网络爬虫)系统
A Powerful Spider(Web Crawler) System in Python. **[TRY IT NOW!][Demo]**

- Write script in Python #Python 编写脚本
- Powerful WebUI with script editor, task monitor, project manager and result viewer # 强大的WebUI实现脚本编写,任务监控,项目管理,结果展示
- [MySQL](https://www.mysql.com/), [MongoDB](https://www.mongodb.org/), [Redis](http://redis.io/), [SQLite](https://www.sqlite.org/), [Elasticsearch](https://www.elastic.co/products/elasticsearch); [PostgreSQL](http://www.postgresql.org/) with [SQLAlchemy](http://www.sqlalchemy.org/) as database backend #支持mysql,mongodb,Redis,SQLite,Elasticsearch,PostgreSQL,SQLAlchemy等多种数据库
- [RabbitMQ](http://www.rabbitmq.com/), [Beanstalk](http://kr.github.com/beanstalkd/), [Redis](http://redis.io/) and [Kombu](http://kombu.readthedocs.org/) as message queue #支持RabbitMQ,Beanstalk,Redis等多种消息队列
- Task priority, retry, periodical, recrawl by age, etc... #任务优先级,重试,定期,按年龄从爬等等
- Distributed architecture, Crawl Javascript pages, Python 2&3, etc... #分布式架构,js网页爬取,Python 2&3 等等

Tutorial: [http://docs.pyspider.org/en/latest/tutorial/](http://docs.pyspider.org/en/latest/tutorial/)  #教程
Documentation: [http://docs.pyspider.org/](http://docs.pyspider.org/)  #文档
Release notes: [https://github.com/binux/pyspider/releases](https://github.com/binux/pyspider/releases)  #发布说明

Sample Code #实例代码
-----------

```python
from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }
```

[![Demo][Demo Img]][Demo]


Installation #安装
------------

* `pip install pyspider`
* run command `pyspider`, visit [http://localhost:5000/](http://localhost:5000/)
#快速开始
Quickstart: [http://docs.pyspider.org/en/latest/Quickstart/](http://docs.pyspider.org/en/latest/Quickstart/)

#贡献
Contribute
----------

* Use It #使用它
* Open [Issue], send PR #发现[问题],并公开
* [User Group] #用户组
* [中文问答](http://segmentfault.com/t/pyspider)


TODO 备忘录
----

### v0.4.0

- [x] local mode, load script from file. #本地模式,从文件加载脚本
- [x] works as a framework (all components running in one process, no threads) #作为一个框架(所有组件都在一个进程中运行,没有其它线程)
- [x] redis 
- [x] shell mode like `scrapy shell`  #shell模式就像'scrapy shell'
- [ ] a visual scraping interface like [portia](https://github.com/scrapinghub/portia)#像[portia]一样的视觉抓取界面


### more 更多

- [x] edit script with vim via [WebDAV](http://en.wikipedia.org/wiki/WebDAV)#通过[WebDAV]编辑vim脚本


License 许可证
-------
Licensed under the Apache License, Version 2.0 #在Apache许可下的2.0版本


[Build Status]:         https://img.shields.io/travis/binux/pyspider/master.svg?style=flat #构建状态
[Travis CI]:            https://travis-ci.org/binux/pyspider #
[Coverage Status]:      https://img.shields.io/coveralls/binux/pyspider.svg?branch=master&style=flat #覆盖状态
[Coverage]:             https://coveralls.io/r/binux/pyspider #覆盖
[Try]:                  https://img.shields.io/badge/try-pyspider-blue.svg?style=flat #尝试
[Demo]:                 http://demo.pyspider.org/#实例
[Demo Img]:             imgs/demo.png #实例图片
[Issue]:                https://github.com/binux/pyspider/issues #问题
[User Group]:           https://groups.google.com/group/pyspider-users #用户群

© 著作权归作者所有

sijinge
粉丝 0
博文 48
码字总数 48130
作品 0
广州
架构师
私信 提问
加载中
请先登录后再评论。
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
Pyspider的简单介绍和初使用

Pyspider Pyspider是由国人(binux)编写的强大的网络爬虫系统 Ptspider带有强大的WebUi / 脚本编辑器 / 任务监控器 / 项目管理器以及结果处理器。他支持多种数据库后端 / 多种消息队列 / Java...

osc_2kahpclc
01/13
7
0
docker快速搭建分布式爬虫pyspider

简介 pyspider是Python中强大Web爬虫框架,并且支持分布式架构。 为什么使用docker搭建pyspider 在安装pyspider时爬过一些坑,比如使用pip install pyspider时,python的版本要求在3.6及以下...

喵来个鱼
2019/05/01
0
0
python Pyspider 的各种爬坑之路

  我觉得我有必要写一下这篇文章,为了学习pyspider,花了一天的时间才把这个环境搭建成功,网上的各种解决办法都是零零碎碎的,今天我把我掉进的所有坑都和大家分享一下。   前面一直在...

osc_3rgq3dae
2019/08/20
3
0
python3.7与pyspider的坑

网络上安装pyspider的坑有很多,但都不如我今天的大,困扰了我几天,终于解决了 Traceback (most recent call last):File "/ffklearn/software/Python-3.7.0/ffkpy/bin/pyspider", line 7, i......

osc_p61a4z2o
2019/05/13
10
0

没有更多内容

加载失败,请刷新页面

加载更多

Synchronized底层实现

https://blog.csdn.net/qq_35190492/article/details/106180781

JaneRoad
41分钟前
18
0
解决okhttp无法重用连接的问题

解决okhttp无法重用连接的问题 最近在一个程序中使用okhttp调用http接口。开始时一切正常,但是测试运行一段时间后,okhttp就会报告recv失败。同时在调用端机器上,netstat显示很多套接字是T...

tommwq
56分钟前
11
0
入坑Linux-day15(使用DHCP动态管理主机地址)

一、动态主机配置协议(DHCP) #DHCP是一种基于UDP协议且仅限于在局域网内部使用的网路协议,主要用于大型的局域网环境或者存在较多移动办公设备的局域网环境中,其主要用途是为局域网内部的...

宁生写你
今天
6
0
js canvas 旋转90度的整数倍

为了避免出现黑框 效果如下 根据不同的方向,设置宽高和画笔位置等 <!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"/> <title>Title</title> <style> .img ......

阿豪boy
今天
16
0
如何生成随机的字母数字字符串? - How to generate a random alpha-numeric string?

问题: I've been looking for a simple Java algorithm to generate a pseudo-random alpha-numeric string. 我一直在寻找一种简单的 Java算法来生成伪随机的字母数字字符串。 In my situat......

技术盛宴
今天
19
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部