文档章节

pyspider爬虫学习-文档翻译-Frequently-Asked-Questions.md

sijinge
 sijinge
发布于 2017/09/03 21:13
字数 1144
阅读 122
收藏 0

阿里云携手百名商业领袖、技术大咖,带您一探行进中的数字新基建!>>>

Frequently Asked Questions #常见问题
==========================

Does pyspider Work with Windows? #pyspider是否与Windows兼容?
--------------------------------
是的,他应该可以,一些用户已经在Windows使用了。但是我没有windows开发环境,没有办法测试,只能给一些提示给在windows上使用pyspider的朋友:
Yes, it should, some users have made it work on Windows. But as I don't have windows development environment, I cannot test. Only some tips for users who want to use pyspider on Windows:
  #有些包需要二进制libs(例如pycurl,lxml),可能你无法通过pip安装它,Windowns二进制包可以在[http://www.lfd.uci.edu/ ~ gohlke / pythonlibs /]中找到。
- Some package needs binary libs (e.g. pycurl, lxml), that maybe you cannot install it from pip, Windowns binaries packages could be found in [http://www.lfd.uci.edu/~gohlke/pythonlibs/](http://www.lfd.uci.edu/~gohlke/pythonlibs/).
  #准备一个干净的环境与 [virtualenv](https://virtualenv.readthedocs.org/en/latest/)
- Make a clean environment with [virtualenv](https://virtualenv.readthedocs.org/en/latest/)
  #在面临崩溃的时候,试试使用32位版本的Python
- Try 32bit version of Python, especially your are facing crash issue.
  #不要使用Python 3.4.1版本
- Avoid using Python 3.4.1 ([#194](https://github.com/binux/pyspider/issues/194), [#217](https://github.com/binux/pyspider/issues/217))

Unreadable Code (乱码) Returned from Phantomjs #Phantomjs返回的结果乱码
---------------------------------------------
#Phantomjs不支持gzip,不要用“gzip”来设置“Accept-Encoding”的头文件。
Phantomjs doesn't support gzip, don't set `Accept-Encoding` header with `gzip`.


How to Delete a Project? #怎么样删除一个项目?
------------------------
设置'group'为'delete'且'status'为'STOP'并等待24小时,你可以在一个项目被删除之前维护'scheduler.DELETE_TIME'改变删除时间。
set `group` to `delete` and `status` to `STOP` then wait 24 hours. You can change the time before a project deleted via `scheduler.DELETE_TIME`.

How to Restart a Project?#怎么样重启一个项目?
-------------------------
#### Why 为什么重启?
它发生在你修改脚本和你想要用新的策略重新抓取所有内容的时候,但因为urls的[age]没有过期。调度器会放弃所有的新请求。
It happens after you modified a script, and wants to crawl everything again with new strategy. But as the [age](/apis/self.crawl/#age) of urls are not expired. Scheduler will discard all of the new requests.

#### Solution 解决方案
1. Create a new project. #创建一个新的项目
2. Using a [itag](/apis/self.crawl/#itag) within `Handler.crawl_config` to specify the version of your script.#在`Handler.crawl_config`中使用一个标签指定脚本的版本。

How to Use WebDAV Mode? #怎么样使用WebDAV模式?
-----------------------
增加`http://hostname/dav/`到你的文件系统,用你喜欢的编辑器编辑或创建脚本。
Mount `http://hostname/dav/` to your filesystem, edit or create scripts with your favourite editor.

> OSX: `mount_webdav http://hostname/dav/ /Volumes/dav`  
> Linux: Install davfs2, `mount.davfs http://hostname/dav/ /mnt/dav`  
> VIM: `vim http://hostname/dav/script_name.py`

#当您没有WebUI编辑脚本时,您需要在调试时将其更改为“WebDAV模式”。在编辑器中保存脚本后,WebUI可以加载并使用最新的脚本来调试代码。
When you are editing script without WebUI, you need to change it to `WebDAV Mode` while debugging. After you saved script in editor, WebUI can load and use latest script to debug your code.

What does the progress bar mean on the dashboard? #仪表板上进度条是什么意思?
-------------------------------------------------
#当鼠标移动到进度条上时,您可以看到注释。
When mouse move onto the progress bar, you can see the explaintions.
#对于5m,1h,1d,数字是在5m,1h,1d中触发的事件。对于所有进度条,它们是对应状态的总任务数。
For 5m, 1h, 1d the number are the events triggered in 5m, 1h, 1d. For all progress bar, they are the number of total tasks in correspond status.

只有任务在DEBUG/RUNNING状态时才显示进度条
Only the tasks in DEBUG/RUNNING status will show the progress.

我需要多少个scheduler/fetcher/processor/result_worker?或者pyspider停止工作
How many scheduler/fetcher/processor/result_worker do I need? or pyspider stop working
--------------------------------------------------------------------------------------
#您只能有一个调度器,有多少个fetcher /processor/ result_worker依赖于系统瓶颈。您可以使用仪表板上的队列状态来查看系统的瓶颈
You can have only have one scheduler, and multiple fetcher/processor/result_worker depends on the bottleneck. You can use the queue status on dashboard to view the bottleneck of the system:

![run one step](imgs/queue_status.png)
#例如,scheduler和fetcher之间的数字表示队列大小,当它达到100(默认最大队列大小)时,fetcher可能会崩溃,或者你应该考虑添加更多的fetcher。
For example, the number between scheduler and fetcher indicate the queue size of scheduler to fetchers, when it's hitting 100 (default maximum queue size), fetcher might crashed, or you should considered adding more fetchers.
#在fetcher下的数字'0+0'表示processors和schduler之间的新任务和状态包的队列大小。你可以把你的鼠标放在数字上看提示。
The number `0+0` below fetcher indicate the queue size of new tasks and status packs between processors and schduler. You can put your mouse over the numbers to see the tips.

© 著作权归作者所有

sijinge
粉丝 0
博文 48
码字总数 48130
作品 0
广州
架构师
私信 提问
加载中

评论(0)

使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
Pyspider的简单介绍和初使用

Pyspider Pyspider是由国人(binux)编写的强大的网络爬虫系统 Ptspider带有强大的WebUi / 脚本编辑器 / 任务监控器 / 项目管理器以及结果处理器。他支持多种数据库后端 / 多种消息队列 / Java...

osc_2kahpclc
01/13
7
0
docker快速搭建分布式爬虫pyspider

简介 pyspider是Python中强大Web爬虫框架,并且支持分布式架构。 为什么使用docker搭建pyspider 在安装pyspider时爬过一些坑,比如使用pip install pyspider时,python的版本要求在3.6及以下...

喵来个鱼
2019/05/01
0
0
python Pyspider 的各种爬坑之路

  我觉得我有必要写一下这篇文章,为了学习pyspider,花了一天的时间才把这个环境搭建成功,网上的各种解决办法都是零零碎碎的,今天我把我掉进的所有坑都和大家分享一下。   前面一直在...

osc_3rgq3dae
2019/08/20
3
0
python3.7与pyspider的坑

网络上安装pyspider的坑有很多,但都不如我今天的大,困扰了我几天,终于解决了 Traceback (most recent call last):File "/ffklearn/software/Python-3.7.0/ffkpy/bin/pyspider", line 7, i......

osc_p61a4z2o
2019/05/13
10
0

没有更多内容

加载失败,请刷新页面

加载更多

CAD如何导出高清的PNG?

CAD如何导出高清的PNG?当我们在使用Auto CAD 2018版本软件时,会遇到各种转换问题,现在教大家使用迅捷CAD转换器软件快速转换。 详细步骤: 使用工具:迅捷CAD转换器 第一步: 进入迅捷CAD...

茹鋽
2分钟前
7
0
我第一次同胡萝卜接触

一天,我们饭桌上有一样萝卜煨肉汤。我问我姑姑:“洋花萝卜跟胡萝卜都是古时候从外国传进来的吧?”她说:“别问我这些事。我不知道。”她想了一想,接下去说道:“我第一次同胡萝卜接触,是...

归海369
4分钟前
5
0
运维之etcd经验

前言 etcd 是一个不错的注册中心。作为团里里面第一个试水的小组,我们是遇到不少问题。 etcd中文文档 etcd中文文档 etcd官方英文文档 安装细节 没有使用官网的方式,而是使用读取配置文件的...

鸟菜啊
4分钟前
7
0
在浏览器中输入url地址 ->> 显示主页的过程

总体来说分为以下几个过程: DNS解析 TCP连接 发送HTTP请求 服务器处理请求并返回HTTP报文 浏览器解析渲染页面 连接结束

JaneRoad
4分钟前
3
0
不知道软件测试什么?这些是你需要知道的软件测试类型和常识

文章篇幅较长,阅读完大概20min,建议收藏阅读, 读完会有收获。欢迎点赞关注 原文链接:https://www.softwaretestinghelp.com/types-of-software-testing/ 有多少软件测试类型呢? 我们作为测...

爱码小哥
9分钟前
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部