文档章节

Hadoop系列之八:Hadoop集群

马哥linux运维
 马哥linux运维
发布于 2016/01/11 21:59
字数 1310
阅读 48
收藏 0

1、合并MapReduce集群与HDFS集群

在调度运行一个作业时,将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上,可避免大量的数据传输,实现数据处理的本地性,进而大大提高整个过程的完成效率,这也正是Hadoop集群的部署方式。如下图所示。

在一个小于50个节点的小规模集群中,可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有5类运行的核心进程,它们是MapReduce集群的JobTrackerTaskTracker,以及HDFS集群的NameNodeDataNodeSecondaryNameNode

2、Hadoop项目

Hadoop是ASF(Apache Software Foundation)的著名开源项目之一,由Doug Cutting创建,早期的主要目的是为他的Nutch搜索引擎提供分布式功能,后来才成为一个独立的项目。Hadoop的核心组件为MapReduce和HDFS,HDFS提供大数据的存储能力,而MapReduce则为程序员开发处理大数据的程序提供了一个开发和运行环境。鉴于前文讲述的HDFS及MapReduce的特性可以得知,Hadoop是一个批处理系统,它不保证对请求提供实时响应;因此,Hadoop不是一个关系型数据库系统,不提供在线事务处理功能,也不是一个结构化数据存储系统。


Hadoop提供的强大的大数据存储及分析能力受到了很多著名公司的青睐,如Yahoo!、Facebook、LinkedIn、Twitter、Rackspace、Baidu、eBay、taobao等,它们根据需要分别部署了规模不同的Hadoop集群来实现诸如推荐系统金融分析自然语言处理数据挖掘影像处理市场预测日志分析等功能。

 

3、Hadoop的版本

                           Hadoop的各分支及发行版(图片来源:Hadoop operations)

Hadoop各版本对比说明:

0.20.0-0.20.2:非常稳定的版本,有多个组织在生产环境中部署;
0.20-append:支持对HDFS中的文件进行“附加”操作的版本;HDFS文件系统中的文件一旦建立就无法修改,但此版本支持对文件进行内容追加的操作,HBase依赖于此功能;
0.20-security:支持Kerberos实现用户认证的版本,由Yahoo!提供;
0.20.203-0.20.205:在0.20-security的基础上,修复了大量bug,并增进了性能的版本;现已经发展为1.0版;
0.21.0:基于主分支的版本,支持append,但不支持kerberos认证;开发版本,不建议生产环境使用;
0.22.0:基于主分支的版本,对HDFS文件系统支持kerberos认证;不过,有些诡异的是,其创建时间晚于0.23版本;
0.23.0:基于主分支的版本,支持append、security、YARN和HDFS联合(HDFS federation);现已经发展为2.0版;
1.0.0:基于0.20.205衍生的版本,因此不支持0.21、0.22和0.23的新增功能;属于目前的主流的稳定版本;
2.0.0:基于0.23.0衍生的版本,仅支持2.0版本的MapReduce(YARN),但兼容MRv1的API;目前,还需要对其进行更多的测试才能部署于生产环境;

                    Hadoop的各版本支持的特性对比(图片来源:Hadoop operations) 

4、Hadoop商业发行版

Hadoop的发行版除了ASF的Hadoop外,还有cloudera、hortonworks、MapR、intel、EMC等提供的商业支持版本,分别以自己的附加产品及应用经验为Hadoop应用提供专业的技术支持。

2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括技术支持、咨询服务和培训等。2009年hadoop的创始人Doug Cutting也任职于Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对hadoop的技术支持。

2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了hadoop 80%的代码。雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP还包含了一款开源的安装和管理系统Ambari以及一个元数据管理系统HCatalog。

cloudera和hortonworks都在通过自己的努力不断地提交代码修复及完善着Apache Hadoop。如果对其它商业版本有兴趣,请分别参照其官方的说明。本书后面选用的Hadoop会以CDH或HDP为主。

5、Hadoop生态圈


 


参考文献:
Hadoop Operations
http://www.xiaohui.org/archives/795.html

 

本文出自 “马哥Linux培训” 博客,转载请与作者联系!

© 著作权归作者所有

马哥linux运维
粉丝 21
博文 57
码字总数 102602
作品 0
CEO
私信 提问
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解

前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决...

虚无境
2018/08/23
0
0
SGI 将推出 Cloudera Hadoop 数据分析集群

10月18日,来自国外媒体的报道,高性能计算机系统提供商SGI宣布计划提供运行Hadoop数据分析平台的集群。 SGI Hadoop集群将完全支持Cloudera的发行版,包括 Apache Hadoop (CDH)在SGI的机架式...

小卒过河
2011/10/18
1K
2
完全分布式(四)Sqoop 安装部署及操作示例

本次采用完全分布式系列的hadoop集群,安装配置过程详细参见 完全分布式集群(二)hadoop2.6.5安装部署 Hive在分布式集群上的部署配置参见 完全分布式集群(三)hive-2.1.1安装部署 检查本地...

PeakFang-BOK
2018/10/12
134
0
Hadoop家族学习路线图

权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增...

_Mr_Computer_
2016/07/13
0
0
Hadoop家族学习路线图(转)

Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN,...

冯辉
2016/11/03
41
0

没有更多内容

加载失败,请刷新页面

加载更多

反编译9.png图片还原

本文链接:https://blog.csdn.net/a1140778530/article/details/10528507 经常反编译apk文件找资源,9.png的文件处理起来很麻烦。 最近使用Ant自动编译打包app时,从别处搜罗来的9.png文件导...

shzwork
10分钟前
2
0
Shell脚本应用 – for、while循环语句

一、for循环语句 在实际工作中,经常会遇到某项任务需要多次执行的情况,而每次执行时仅仅是处理的对象不一样,其他命令相同。例如:根据通讯录中的姓名列表创建系统账号等情况。 当面对各种...

linux-tao
10分钟前
2
0
RPA风潮下企业财务工作模式的变革

RPA(机器人流程自动化)在财务领域的应用,正给企业财务带来前所未有的改变。 前RPA时代,财务领域面临的痛点 在RPA机器人应用之前,企业财务工作进程的推进,主要通过财务人员人工操作或信...

UiBot
15分钟前
3
0
Hive之命令行修改表注释

最近遇到一个需求,在不重建表的情况下,修改表的注释,hive有没有类似关系型数据库的SQL命令来修改呢,找了下,亲测有效,如下List-1 List-1 hive>use your_schemahvie>ALTER TABLE tabl...

克虏伯
15分钟前
3
0
是什么,它的作用是什么

在HTML文档的首部往往会有这么一句话<!DOCTYPE html>,许多时候我们忽视了它的存在,它实际上是一个声明,告诉浏览器用哪种HTML版本的规范来解读HTML文档。 尽管我们不给出这句声明浏览器照样...

前端老手
21分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部