文档章节

Hadoop 2.4.0和YARN的安装过程

摆渡者
 摆渡者
发布于 2014/06/21 18:42
字数 1419
阅读 7481
收藏 16
点赞 1
评论 0

Hadoop 2.x新特性

    将Mapreduce框架升级到Apache YARN,YARN将Map reduce工作区分为两个:JobTracker组件:实现资源管理和任务JOB;计划/监视组件:划分到单独应用中。 使用MapReduce的2.0,开发人员现在可以直接Hadoop内部基于构建应用程序。Hadoop2.2也已经在微软widnows上支持。

YARN带来了什么

    1.HDFS的高可靠性
    2.HDFS snapshots快照
    3.支持HDFS中的 NFSv3 文件系统。

Yarn/map reduce2.0架构图

    简单介绍一下这个图:右边的3个节点中的NodeManager会定期的向ResourceManager(简写为RM)报告该节点的状态(块信息,存储信息,该节点中的Map或Reduce任务执行情况等信息),红色的Client向RM提交任务(包括输入文件位置、Mapper和Reducer),RM根据各个节点汇报的情况,为这个Job创建一个Application Master(即图中红色的App Mstr)用于管理这个Job的执行情况。

    App Master创建好并接到任务后,会向RM申请资源(包括输入文件位置,内存使用,计算过程等),申请到一些Container(可能在不同节点上)后,会开始在这些节点上执行(根据提供的输入文件位置读取输入文件,执行Map或Reduce任务)这个Job(的部分),App Mstr同时会管理这些节点中的container,并监控这些container的运行情况。

    蓝色部分Client----App Mstr----Container过程和红色部分的过程完全相同。

    官方的解释在这里:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html,细节可能有偏差,但大体是这么回事。

准备工作

    系统环境如下:

    安装好JDK并配置好变量$JAVA_HOME。由于我的机器是Ubuntu的,因此使用apt-get可以安装open-jdk,这里我安装的jdk版本为jdk7u55。

安装Hadoop 2.4

    说明:由于我只有一台电脑,所以这里将所有关于hadoop的服务都配置在这里(文章最后将会看到),而HDFS的备份因子默认为3,又由于只有一台机器,因此只能设置为1(下面也有说明)。此种模式除了并非真正意义的分布式之外,其程序执行逻辑完全类似于分布式,因此常用于开发人员测试程序执行。

    从http://mirror.metrocast.net/apache/hadoop/common/hadoop-2.4.0/下载。

    1.解压到/home/hduser/yarn目录,假设user是用户名(我这里的用户名为wxl)。

$ tar -xvzf hadoop-2.4.0.tar.gz
$ mv hadoop-2.4.0 /home/user/Software/hadoop-2.4.0
$ cd /home/user/Software
$ sudo chown -R user:user hadoop-2.4.0
$ sudo chmod -R 755 hadoop-2.4.0

    2.在~/.bashrc设置环境,将下面加入:

export HADOOP_HOME=/home/hadoop/hadoop-2.4.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

    3.然后再执行下面的命令使配置生效:

$ source ~/.bashrc

    4.创建Hadoop数据目录:

$ mkdir -p $HADOOP_HOME/yarn/yarn_data/hdfs/namenode
$ mkdir -p $HADOOP_HOME/yarn/yarn_data/hdfs/datanode

    5.配置过程:

$ cd $HADOOP_HOME
$ vi etc/hadoop/yarn-site.xml

    6.编辑 $HADOOP_HOME/etc/hadoop/yarn-site.xml,在<configuration>标签中加入以下内容:

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

    7.单个集群节点设置,在$HADOOP_HOME/etc/hadoop/core-site.xml文件的<configuration>标签加入下面内容在配置

<property>
    <name>fs.default.name</name>
    <!-- 这个地址用于程序中访问HDFS使用 -->
    <value>hdfs://localhost:9000</value>
</property>

    8.在$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件的<configuration>标签中加入下面内容

<property>
    <name>dfs.replication</name>
    <!-- 单机版的一般设为1,若是集群,一般设为3 -->
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <!-- 即第4步中创建的namenode文件夹位置 -->
    <value>file:/home/hadoop/hadoop-2.4.0/yarn/yarn_data/hdfs/namenode</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <!-- 即第4步中创建的datanode文件夹位置 -->
    <value>file:/home/hadoop/hadoop-2.4.0/yarn/yarn_data/hdfs/datanode</value>
</property>

    9.在$HADOOP_HOME/etc/hadoop/mapred-site.xml文件(如果这个文件不存在,里面有个mapred-site.xml.template文件,拷贝为mapred-site.xml即可)中的<configuration>标签内加入下面的配置:

    

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

    10.格式化namenode,这个过程仅仅在第一次使用之前执行一次。

$ bin/hadoop namenode -format

    11.启动HDFS处理和Map-Reduce 处理(当然,懒人(我就是一个,呵呵)可以把这几句话写在一个诸如"start.sh"的脚本里面,每次就只需要执行./start.sh就可以启动hadoop的所有服务了,同理,停止hadoop的脚本过程也可以这样做。

# HDFS(NameNode & DataNode)部分:

$ sbin/hadoop-daemon.sh start namenode
$ sbin/hadoop-daemon.sh start datanode


# MR(Resource Manager, Node Manager & Job History Server).部分:

$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
$ sbin/mr-jobhistory-daemon.sh start historyserver

    此时终端会提示启动的相关日志被记录在$HADOOP_HOME/logs文件夹中,如图:

    12.下面来确认是否成功启动了相关服务:

$ jps

    # 如果成功,应该有类似下面的输出:

22844 Jps
28711 DataNode
29281 JobHistoryServer
28887 ResourceManager
29022 NodeManager
28180 NameNode

    如果不成功,在启动这些服务的时候会看到有相关的日志输出,可以去$HADOOP_HOME/logs下面查看相关日志来检查哪些服务失败了,然后再对症处理。

    13.HDFS还提供了一个WebUI用于查看该文件系统的状态,浏览器打开端口:http://localhost:50070,其中Utilities标签下有个File Browser,可以浏览HDFS中的文件。

    14.可以在http://localhost:8088检查应用程序的状态:

    15. 在http://localhost:8088/conf查看hadoop集群的所有配置信息:

    到此,Hadoop安装算是完成了。


    参考资料:

    http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

    http://www.jdon.com/bigdata/yarn.html

© 著作权归作者所有

共有 人打赏支持
摆渡者
粉丝 318
博文 171
码字总数 205794
作品 0
浦东
程序员
hadoop-2.4.0完全分布式集群搭建

1.配置hosts 各linux版本hosts文件位置可能不同,redhat是在 /etc/hosts,编辑之: 172.17.0.1 master172.17.0.2 resorucemanager172.17.0.3 datanode1172.17.0.4 datanode2172.17.0.5 data......

voyage1314
2014/05/08
0
1
Hadoop CDH4.5升级CDH5 以及NameNode和YARN HA实战

CDH5支持很多新特性,所以打算把当前的CDH4.5升级到CDH5,软件部署还是以之前的CDH4.5集群为基础 192.168.1.10 U-1 (Active) hadoop-yarn-resourcemanager hadoop-hdfs-namenode hadoop-mapr...

China_OS
2014/05/27
0
0
spark用程序提交任务到yarn

先介绍官网提交的例子,我用的是spark 0.9.0 hadoop2.2.0 一.使用脚本提交 1.使用spark脚本提交到yarn,首先需要将spark所在的主机和hadoop集群之间hosts相互配置(也就是把spark主机的ip和主...

zachary124
2014/04/08
0
1
HDFS 实验 (四) 集群操作

集群设置 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html 用户手册 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdf......

pcdog
04/13
0
0
Storm On Yarn 安装部署

安装 JDK7 和 Maven 部署Hadoop2集群,并启动yarn http://my.oschina.net/zc741520/blog/362824 下载 Storm on Yarn [grid@hadoop4 ~]$ wget https://github.com/yahoo/storm-yarn/archive/m......

张超
2015/05/25
0
0
Hadoop--4.Hadoop安装配置

一、下载 1.下载hadoop [root@master ~]# cd /usr/local/src/ [root@master src]# wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 2.官网下载地址(......

Kry1702
06/28
0
0
hadoop安装笔记-cdh4

https://ccp.cloudera.com/display/CDH4DOC/Deploying+HDFS+on+a+Cluster https://ccp.cloudera.com/display/CDH4DOC/Deploying+MapReduce+v2+%28YARN%29+on+a+Cluster iptables -P INPUT DR......

RoseRougE
2013/11/11
0
0
Ranger-Yarn插件安装

Ranger-Yarn插件ranger-0.6.0-yarn-plugin安装到Yarn的所有ResourceManager节点, 其他的NodeManager节点不需要安装。 登陆hdfs安装的用户,garrison/zdh1234(用户组hadoop),获取安装包解压安...

木木与呆呆
04/26
0
0
Hadoop 2.0(YARN/HDFS)学习资料汇总

本文档整理了迄今为止Hadoop 2.0(包括YARN和HDFS2)相关的一些学习资料,包括文档、技术博客、Hadoop书籍等,欢迎大家补充,我将持续更新这个页面。 1. PDF资料 (1)“Apache Hadoop YARN:...

颜建海
2014/05/28
0
0
Apache Hadoop 3.1.0 发布,原生支持 GPU 和 FPGA

Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在...

李玉珏
04/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

MyBatis入门

一、安装 <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId> <version>x.x.x</version></dependency> 二、从 XML 中构建 SqlSessionFactory String r......

一个yuanbeth
11分钟前
0
0
聊聊spring cloud的LoadBalancerAutoConfiguration

序 本文主要研究一下spring cloud的LoadBalancerAutoConfiguration RibbonAutoConfiguration spring-cloud-netflix-ribbon-2.0.0.RC2-sources.jar!/org/springframework/cloud/netflix/ribb......

go4it
14分钟前
0
0
【转】使用Lombok来优雅的编码

前言 Lombok 是一种 Java™ 实用工具,可用来帮助开发人员消除 Java 的冗长,尤其是对于简单的 Java 对象(POJO)。它通过注解实现这一目的。 正文 添加依赖 在 pom.xml 文件中添加相关依赖:...

HAVENT
16分钟前
0
0
Dubbo 源码解读 —— 可支持序列化及自定义扩展

一、概述 从源码中,我们可以看出来。目前,Dubbo 内部提供了 5 种序列化的方式,分别为 fastjson、Hessian2、Kryo、fst 及 Java原生支持的方式 。 针对不同的序列化方式,对比内容如下: 名...

Ryan-瑞恩
24分钟前
0
0
MySQL内存设置—— MySQL server has gone away

set global max_allowed_packet=268435456

一梦心草
33分钟前
0
0
推导式

列表、集合和字典推导式 列表推导式是Python最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素,形成列表,在传递参数的过程中还可以修改元素。形式如下: [expr for val in collect...

火力全開
38分钟前
0
0
maven配置文件settings.xml详解

settings.xml有什么用? 如果在Eclipse中使用过Maven插件,想必会有这个经验:配置settings.xml文件的路径。 settings.xml文件是干什么的,为什么要配置它呢? 从settings.xml的文件名就可以...

浮躁的码农
43分钟前
0
0
MakeCode图形化编程语言学习笔记:micro:bit编程练习题[图]

MakeCode图形化编程语言学习笔记:micro:bit编程练习题[图]: 基础训练题: Q1:摇晃micro:bit编程板,随机出现7个小动物图标中的一个,并且前后相邻两次出现的小动物不重复。 注:七个小动物...

原创小博客
43分钟前
0
0
Redis 压力测试说明

Redis 压力测试说明 redis压力测试 2014-03-24 21:41:07| 分类: 默认分类 | 标签:redis |举报|字号 订阅 这几天对比测试mongodb、redis、pg的性能,主要是在消息队列、消息处理、用户经纬度...

舒文joven
44分钟前
0
0
拉姆达表达式 追加 条件判断 Expression>

public static class PredicateBuilder {   /// <summary>   /// 机关函数应用True时:单个AND有效,多个AND有效;单个OR无效,多个OR无效;混应时写在AND后的OR有效   /// </summary...

Lytf
56分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部