文档章节

在Ubuntu 12.04中配置分布式爬虫框架——Cola

鄂世嘉
 鄂世嘉
发布于 2013/07/01 14:20
字数 451
阅读 480
收藏 7

Cola是一个用Python编写的分布式爬虫框架,其目的是为了方便分布式的部署,目前虽仍有很多不完善的地方,但仍然值得对其进行一番探索。本文将对Cola的运行环境配置进行一番较为详细的介绍。在配置之前,请保证系统已经有正常的编译工具(gcc, make, autoconf, etc.)。另外,可能需要先安装python-dev:

sudo apt-get install python-dev

1 安装MongoDB

Cola所采用的数据库为文档型数据库MongoDB,因此首先需要配置MongoDB,这里给出一种较为方便的部署方法。

MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:

 

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list

sudo apt-get update

经过以上几步之后,就可以安装最新稳定版本的MongoDB:

sudo apt-get install mongodb-10gen

安装完毕后,会自动启动MongoDB服务。

2 安装PIP

PIP是一个Python的包管理工具。因为Cola依赖很多的Python库,为了方便后期的安装,我们需要先配置好PIP。PIP本身依赖于setuptools,因此在安装PIP前,需要先安装setuptools,具体的方法如下:

wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl
curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py
sudo python get-pip.py

3 配置Cola所依赖的库

sudo apt-get install libyaml-dev
sudo pip install pyyaml
sudo pip install mechanize
sudo pip install python-dateutil
sudo pip install BeautifulSoup4
sudo pip install mongoengine
sudo easy_install rsa
git clone https://github.com/chineking/cola.git

在最后一个命令中,我们获取Cola的源代码,之后就可以单机模式或分布式模式来运行了,具体可以参见:https://github.com/chineking/cola/wiki

© 著作权归作者所有

共有 人打赏支持
鄂世嘉

鄂世嘉

粉丝 18
博文 13
码字总数 12997
作品 0
嘉定
私信 提问
Java 开源博客 —— Solo 0.6.8 正式版发布了!

Java 开源博客 —— Solo 0.6.8 正式版发布了,欢迎大家下载。另外,欢迎观摩我们的另一个产品,在线 Golang IDE——Wide! 特性 基于标签的文章分类 博客/标签 Atom/RSS、Sitemap 输出 评论...

88250
2015/03/25
8.2K
23
Infinispan 9.0.0 CR2 发布,分布式集群缓存系统

nfinispan 9.0.0.CR2 发布了,Infinispan 9.0 代号为" Ruppaner。此版本除了一些错误修复外,还有以下亮点: 依赖关系升级、更新: JGroups 4.0.0.Final Apache Lucene 5.5.4 Hibernate Searc...

王练
2017/02/27
556
0
项目协作管理--Mingle

Mingle 是关于项目的协作管理(非开源软件)。Mingle的独特之处以及它在敏捷项目管理和团队协作方面的强大功能包括: Mingle并不局限于敏捷方法论——它默认提供了三种软件开发模版(Scrum, ...

匿名
2008/11/10
6.9K
0
Infinispan 8.0.0.Beta2 发布,数据网格平台

Infinispan 8.0.0.Beta2 发布,此版本主要是大量的改进和 bug 修复: 分布式流支持 (ISPN-5293) - 基于 DSL 的分组和聚合查询 (ISPN-5416). Log4J 2.x 支持 服务器基于 WildFly 9 为将要到来...

叶秀兰
2015/07/26
314
1
来客电商

来客电商 项目介绍 非常惭愧地说,最开始是完全模仿着拼多多的功能模块来做这套系统,也仅仅是为了磨合团队,提高业务水平而已。 可谁知道,做完了拼团基本功能,还发现有评价没有做,好吧,...

沐零
09/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

降压变换器 Buck

特点 输入输出极性相同。 工作过程 在 MOS 导通时,输入电源通过 L 和 C 滤波后向负载端提供电流;当 MOS 断开后,L 通过二极管续流,保持负载电流连续。输出电压因为占空比的作用,不会超过...

colinux
今天
1
0
Apache日志不记录访问静态文件,访问日志切割,静态元素过期时间设置

Apache配置不记录访问静态文件的日志 网站大多元素为静态文件,如图片、css、js等,这些元素可以不用记录 vhost原始配置 <VirtualHost *:80> ServerAdmin test@163.com DocumentRoo...

野雪球
今天
3
0
聊聊storm的ICommitterTridentSpout

序 本文主要研究一下storm的ICommitterTridentSpout ICommitterTridentSpout storm-core-1.2.2-sources.jar!/org/apache/storm/trident/spout/ICommitterTridentSpout.java public interface......

go4it
今天
4
0
Ubuntu常用操作

查看端口号 netstat -anp |grep 端口号 查看已使用端口情况 netstat -nultp(此处不用加端口号) netstat -anp |grep 82查看82端口的使用情况 查找被占用的端口: netstat -tln netstat -tl...

hc321
昨天
4
0
网站cdn的静态资源突然访问变的缓慢,问题排查流程

1.首先我查看了一下是否自己的网络问题,通过对比其他资源的访问速度和下载速度,确认不是 2.通过ping 和 tracert 判断cdn域名能否正常访问,(最后回想感觉这一步可以省略,因为每次最终能访...

小海bug
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部