文档章节

Hadoop伪分布环境配置

Failure
 Failure
发布于 2014/10/11 12:32
字数 1621
阅读 72
收藏 0

本文参考了如下作者:

http://www.it165.net/pro/html/201410/23406.html

http://blog.csdn.net/hguisu/article/details/7237395

特别鸣谢!

一、准备工作:

    1.最新的jdk1.8(jdk-8u20-linux-i586.tar.gz)

    下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

    2.最新hadoop-2.5.1(hadoop-2.5.1.tar.gz

    下载地址:http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.5.1/

    3.ssh的安装

(注:本次配置实在ubuntu14.04 kylin LTS系统上进行的)

二、总体流程:

    1.安装jdk,设置环境变量

    2.安装ssh,实现无密码验证

    3.安装配置hadoop

    4.格式化,验证,启动

三、环境配置

  1. 安装jdk

    将下载好的jdk-8u20-linux-i586.tar.gz解压到/usr/lib/jvm目录下,进入源文件目录,输入命令 sudo tar -zxvf jdk-8u20-linux-i586.tar.gz -C /usr/lib/jvm

  2. 设置JAVA_HOME等环境变量

    输入命令 sudo vim /etc/profile 在一般模式下按i进入编辑模式,在末尾输入下列语句:

    #set java home
    export JAVA_HOME=/usr/lib/jvm/java-8u20-sun
    export JRE_HOME=/usr/lib/jvm/java-8u20-sun/jre
    export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
    export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

    注意:这里设置的JAVA_HOME目录是我的压缩文件最终解压到的位置,读者根据自己情况改变

    在vim编辑模式下输入完成后,按Esc键返回到一般模式,输入:wq保存返回,执行下列命令使配置生效

    sudo chmod +x /etc/profile   #增加执行权限

    source /etc/profile    #使配置生效

    在命令窗口中输入命令  java -version ,出现下列信息,则表明jdk安装成功

    java version "1.8.0_20"

    Java(TM) SE Runtime Environment (build 1.8.0_20-b26)

    Java HotSpot(TM) Server VM (build 25.20-b23, mixed mode)

    在命令窗口中输入命令 echo $JAVA_HOME,出现下列信息,则表明jdk配置成功

    /usr/lib/jvm/java-8u20-sun

  3. ssh无密码验证配置

    在命令窗口下输入  sudo apt -get install ssh

         这个安装完后,可以直接使用ssh命令 了。
         执行$ netstat  -nat    查看22端口是否开启了。
         测试:ssh localhost。
         输入当前用户的密码,回车就ok了。说明安装成功,同时ssh登录需要密码。

  4.     在命令窗口下输入  ssh-keygen -t rsa

    Generating public/private rsa key pair. 
            Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 & 
            Created directory '/root/.ssh'. &创建/root/.ssh目录& 
            Enter passphrase (empty for no passphrase): 
            Enter same passphrase again: 
            Your identification has been saved in /root/.ssh/id_rsa. 
            Your public key has been saved in /root/.ssh/id_rsa.pub. 

    通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置:

输入命令  sudo cat id_rsa.pub > authorized_keys 
        将id_rsa.pub写入authorized_keys,配置完毕,可通过ssh 本机IP 测试是否需要密码登录:ssh localhost

4.hadoop-2.5.1安装配置

    将下载好的hadoop-2.5.1.tar.gz解压到/opt目录下,并更名为hadoop

    在命令窗口下输入 sudo tar -zxvf hadoop2.5.1.tar.gz -C /opt/hadoop

    输入 sudo mv hadoop-2.5.1 hadoop

    然后把Hadoop的安装路径添加到"/etc/profile"中,并使其生效。输入命令 sudo vim /etc/profile 在编辑模式下输入下列语句

    # set hadoop path
            export HADOOP_HOME=/opt/hadoop
            export PATH=$PATH :$HADOOP_HOME/bin

完成后按Esc ,输入:wq保存退出,输入命令 source /etc/profile

请注意这里安装的2.5.1版本,2.*版本较1.*版本改动很大,主要是用Hadoop MapReduceV2(Yarn) 框架代替了一代的架构,其中JobTracker 和 TaskTracker 不见了,取而代之的是 ResourceManager, ApplicationMaster 与 NodeManager 三个部分,而具体的配置文件位置与内容也都有了相应变化,具体的可参考文献:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

安装完之后进行配置,首先所有的配置文件从上一版本的hadoop/conf换成了hadoop/etc/hadoop,在hadoop目录下,执行sudo vim etc/hadoop/core-site.xml,将其配置为:

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<!--file system properties-->

<property>

<name>fs.defaultFS</name>

<value>hdfs://127.0.0.1:9000</value>

</property>

</configuration>

(注:我是在本机配置伪分布,因此hdfs配置ip地址为本机ip)

然后执行vim etc/hadoop/hdfs-site.xml进行第二项配置:

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>/opt/hadoop/hdfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/usr/hadoop/hdfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

请注意上述路径都需要自己手动用mkdir创建(共三个目录,hdfs目录,还有hdfs目录下的data目录和name目录),具体位置也可以自己选择,其中dfs.replication的值建议配置为与分布式 cluster 中实际的 DataNode 主机数一致,在这里由于是伪分布式环境所以设置其为1。

上述配置也可参考:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

接下来执行vim etc/hadoop/mapred-site.xml配置其使用 Yarn 框架执行 map-reduce 处理程序

(注意:在hadoop2.X版本中已经没有mapred-site.xml文件了,在这里需要自己新建一个)

内容如下: 
<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>Yarn</value> 
</property> 
</configuration> 

最后执行vim etc/hadoop/yarn-site.xml对yarn进行配置,其内容如下:

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

<name>Yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>

</property>

<property>

<description>The address of the applications manager interface in the RM.</description>

<name>Yarn.resourcemanager.address</name>

<value>你的ip:18040</value>

</property>

<property>

<description>The address of the scheduler interface.</description>

<name>Yarn.resourcemanager.scheduler.address</name>

<value>你的ip:18030</value>

</property>

<property>

<description>The address of the RM web application.</description>

<name>Yarn.resourcemanager.webapp.address</name>

<value>你的ip:18088</value>

</property>

<property>

<description>The address of the resource tracker interface.</description>

<name>Yarn.resourcemanager.resource-tracker.address</name>

<value>你的ip:8025</value>

</property>

</configuration>

(注意:在这里,因为我是本机配置,所以“你的ip”都为127.0.0.1,不要写成localhost,在这失败好久。。。)

(注意:千万别忘了修改hadoop-env.sh和yarn-env.sh两个文件里的JAVA_HOME,用命令sudo vim hadoop/etc/hadoop/hadoop-env.sh 与 sudo vim hadoop/etc/hadoop/yarn-env.sh来配置两个文件里的JAVA_HOME,在这里,即是将$JAVA_HOME替换为/usr/lib/jvm/java-8u20-sun)

然后格式化:hadoop/bin/hadoop namenode -format,看到命令倒数第三行Storage directory * has been successfully formatted. 则说明格式化成功。

(注意:在格式化过程中可能会出错,如果报出java.io.exception cannot create directory /opt/hadoop/hdfs/data 这是因为目录权限不够,在命令窗口下输入 sudo chmod a+x /opt/hadoop

新版本中启动脚本也从hadoop/bin/start-all.sh变为了hadoop/sbin/start-dfs.sh与hadoop/sbin/start-yarn.sh

执行 sbin/start-dfs.sh

执行sbin/start-yarn.sh

两者均启动成功,可以访问http://127.0.0.1:50070来获得dfs的运行现状,http://127.0.0.1:8088来获得resource manager的运行现状,全部Hadoop上的应用情况一目了然。


© 著作权归作者所有

Failure
粉丝 3
博文 14
码字总数 16246
作品 0
西安
私信 提问
Hadoop手把手逐级搭建,从单机伪分布到高可用+联邦(1)单机伪分布

总体概述 1. 目标 2. 工具及版本 3. 四个阶段 第一阶段: hadoop单机伪分布(single) 0. 步骤概述 1. 配置网络修改主机名 1.1 查看VMware虚拟网络 1.2 配置虚拟机网卡ifcfg-eth0 1.3 设置NETWO...

bigablecat
2017/12/26
0
0
Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。 (一)Hadoop伪分布安装 1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系...

a2011480169
2016/06/15
0
0
Spark2.0.0伪分布安装教程

Spark2.0.0伪分布安装教程 1.引言 Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有MapReduce所具有的优点;但不同于MapReduce的是——中间输出结果可以保存在内存中,从而不...

Liri
2017/12/13
0
0
(6)Spark 2.0.0 伪分布安装

1.引言 是专为大规模数据处理而设计的快速通用的计算引擎。拥有所具有的优点;但不同于的是——中间输出结果可以保存在内存中,从而不再需要读写,因此能更好地适用于数据挖掘与机器学习等需...

LoveCarpenter
2017/12/13
0
0
ubuntu12.04下hadoop单机模式和伪分布模式环境搭建

1.添加hadoop组(专门用来进行hadoop测试)到系统用户: 2.在hadoop中添加hadoop用户: 3.赋予hadoop管理员权限 ( 如果不想新建用户,只在自己现有用户下搭建,上面三步可以省去直接进入第四步...

lcj1992
2014/01/07
1K
2

没有更多内容

加载失败,请刷新页面

加载更多

面向海量数据的极致成本优化-云HBase的一体化冷热分离

前言 随着业务的持续发展,业务数据库存储量会持续增长。通常数据量过亿时,就需要考虑做分库分表,或者选择扩展能力更好的NOSQL/NewSQL数据库,如HBase就可以单表支持PB级数据,足够满足大多...

阿里云官方博客
30分钟前
3
0
最新最全国内外架构开源技术干货资料

大家好,废话不多说,整理了精心收集了各类资源。 声明,如侵犯个人利益,请联系小编,会立即删除相关资料。 领取方式在文末 求转发列表 好了,由于资源太多啦,就不一一列举了。 大家按照下...

泥瓦匠BYSocket
32分钟前
6
0
springmvc jsp访问不了css

在jsp中引入css,一直报404错误,直接访问css,也无法访问 将css文件移出WEB-INF,因为处于安全性考虑,这个目录禁止外部访问。 当引用css时,可以直接用绝对路径${pageContext.request.conte...

沉迷于编程的小菜菜
35分钟前
4
0
android 系统版本 9.1网络请求遇到坑

网络请求异常: E/http: CLEARTEXT communication to plat.xunlinkeji.cn not permitted by network security policy 在res下新建一个xml目录 创建名为network_security_config.xml 文件 ,该......

MrLins
52分钟前
5
0
Istio 1.3 发布,HTTP 遥测不再需要 Mixer

> 原文链接:Istio 1.3 发布,HTTP 遥测不再需要 Mixer Istio 是 Google、IBM 和 Lyft 联合开源的服务网格(Service Mesh)框架,旨在解决大量微服务的发现、连接、管理、监控以及安全等问题...

米开朗基杨
今天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部