文档章节

Hadoop版本说明

sittc7
 sittc7
发布于 2014/10/13 15:00
字数 1606
阅读 113
收藏 2

Hadoop版本说明

最近想研究一下hadoop,增加自己的知识点,但是从官网准备下载时却发现,版本太多了,而且从版本号上面完全看不出因果关联。由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache HadoopCloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。

1. Apache Hadoop

1.1  Apache版本衍化

截至目前(20121223日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x0.21.x0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x0.22.xNameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS FederationYARN两个系统,相比于0.23.x2.x增加了NameNode HAWire-compatibility两个重大特性。

经过上面的大体解释,大家可能明白了Hadoop以重大特性区分各个版本的,总结起来,用于区分Hadoop版本的特性有以下几个:

1Append 支持文件追加功能,如果想使用HBase,需要这个特性。

2RAID 在保证数据可靠的前提下,通过引入校验码较少数据块数目。详细链接:

https://issues.apache.org/jira/browse/HDFS/component/12313080

3Symlink 支持HDFS文件链接,具体可参考https://issues.apache.org/jira/browse/HDFS-245

4Security Hadoop安全,具体可参考:https://issues.apache.org/jira/browse/HADOOP-4487

5 NameNode HA 具体可参考:https://issues.apache.org/jira/browse/HDFS-1064

6 HDFS FederationYARN

需要注意的是,Hadoop 2.0主要由Yahoo独立出来的hortonworks公司主持开发。

1.2  Apache版本下载

1) 各版本说明:http://hadoop.apache.org/releases.html

2) 下载稳定版:找到一个镜像,下载stable文件夹下的版本。

3 Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中。

2. Cloudera Hadoop

2.1  CDH版本衍化

Apache当前的版本管理是比较混乱的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。

我们知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDHCloudera Distribution Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,CDH3(在Apache Hadoop 0.20.2版本基础上演化而来的)和CDH4Apache Hadoop 2.0.0版本基础上演化而来的),分别对应ApacheHadoop 1.0Hadoop 2.0,它们每隔一段时间便会更新一次。Cloudera公司最新发布的CDH5(基于apache hadoop 2.2.0下载地址为:CDH5-beta-1下载)中,自带了YARN HA实现,尽管该版本目前为beta版,但考虑到该方案采用了Hadoop 2.0中自带的HA框架实现(HDFS HAMapReduce HA均采用该框架实现),因此,具有一定通用性。

Clouderapatch level划分小版本,比如patch level923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

2.2 CDH版本下载

1) 版本含义介绍:

https://ccp.cloudera.com/display/DOC/CDH+Version+and+Packaging+Information

2)各版本特性查看:

https://ccp.cloudera.com/display/DOC/CDH+Packaging+Information+for+Previous+Releases

3)各版本下载:

CDH3http://archive.cloudera.com/cdh/3/

CDH4http://archive.cloudera.com/cdh4/cdh/4/

注意,Hadoop压缩包在这两个链接中的最上层目录中,不在某个文件夹里,很多人进到链接还找不到安装包!

3. 如何选择Hadoop版本

当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

1)是否为开源软件,即是否免费。

2) 是否有稳定版,这个一般软件官方网站会给出说明。

3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

考虑到以上几个因素,我们分析一下开源软件Hadoop。对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(20121223日),ApacheCloudera最新的稳定版分别是Hadoop 1.0.4CDH3U4,因此,你可以从中任选一个使用。如今Hadoop 2.0已经发布了最新的稳定版2.2.0,推荐使用该版本,具体介绍可阅读:“Hadoop 2.0稳定版本2.2.0新特性剖析”,升级方法可参考:“Hadoop升级方案(二):从Hadoop 1.0升级到2.01)”。转载自董的博客。

 

© 著作权归作者所有

sittc7
粉丝 0
博文 9
码字总数 13981
作品 0
长宁
个人站长
私信 提问
hadoop_学习_02_Hadoop环境搭建(单机)

一、环境准备 1.说明 hadoop的下载来源有: 官方版本:http://archive.apache.org/dist/hadoop/ CDH版本:http://archive.cloudera.com/cdh5 企业应用一般选择CDH版本,因为比较稳定。 若决定...

rayner
2018/03/21
0
0
hadoop的单机版安装和HBase的搭建

安装jdk1.7的环境 下载hadoop. hadoop-2.5.2.tar.gz版本 2.进入hadoop的网站,点击左下角的Documentation,找到对应的版本 ,点击进入,找到Single Node Setup 的说明文档,按照文档说明开始配...

信志
2016/09/24
205
0
hdfs 集群间数据交换 - HdfsDataExchanger

背景 当前比较流行的hdfs间数据迁移工具有hadoop默认提供的distcp,阿里开源的DataX,这些工具能够满足常规的大部分需求,但是当时碰到hadoop版本不一致、keberos授权等场景时就行不通了。针...

SebastianHe
2018/10/12
430
0
实战 windows7 下 eclipse 远程调试 linux hadoop

恩,之所以有这篇博客,是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop,其实我自己不这么混搭的,既然有童鞋这么问了,那我就索性随着折腾一把了。 首先...

大数据之路
2013/04/15
18.9K
13
Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境。 对使用的系统环境作...

xpleaf
2017/08/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Python如何实现单例模式?其他23中设计模式python如何实现?

单例模式主要有四种方法:new、共享属性、装饰器、import。 # __ new__方法:class Singleton(object): def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): ......

每天学Python
3分钟前
0
0
在正则表达式的上下文中,“懒惰”和“贪婪”是什么意思?

有人可以用一种可以理解的方式解释这两个术语吗? #1楼 贪婪意味着您的表情将匹配尽可能大的组,懒惰意味着它将匹配最小的组。 对于此字符串: abcdefghijklmc 这个表达式: a.*c 贪婪的匹...

技术盛宴
7分钟前
0
0
springboot web 大文件上传源代码

一、 功能性需求与非功能性需求 要求操作便利,一次选择多个文件和文件夹进行上传; 支持PC端全平台操作系统,Windows,Linux,Mac 支持文件和文件夹的批量下载,断点续传。刷新页面后继续传输...

东方雨
7分钟前
26
0
这五类人最适合转Web前端,有你吗?

互联网的高速发展促使互联网企业对于网站等页面的用户体验要求也越来越高,导致网站开发难度越来越大,于是一个新兴职业应运而生——web前端工程师。 因为互联网时代的高速发展,公司企业的迫...

梦想编程
15分钟前
35
0
vue打包后静态资源图片失效&&vue动态设置img的src不生效

vue打包后静态资源图片失效: 老版本中需要找到config/index.js,找build打包对象里的assetsPublicPath属性,默认值为/,更改为./就好了; 新版本中只有手动更改vue.config.js, 在里面配置p...

liulunsheng
28分钟前
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部