文档章节

Spark集群搭建——Hadoop2.4.1集群搭建

Jackson_Mu
 Jackson_Mu
发布于 2015/03/16 17:16
字数 458
阅读 2540
收藏 50

安装Java

参见Hadoop 1.2.1 伪分布式模式安装中Java安装部分

配置SSH免密码验证

我们还是以spark-master, ubuntu-worker, spark-worker1三台机器为例。

参见博客Spark集群搭建——SSH免密码验证登陆

下载hadoop

下载地址:http://hadoop.apache.org/releases.html#Download

解压文件: tar -zxvf hadoop-2.4.1.tar.gz

修改配置文件

进入hadoop-2.4.1/etc/hadoop目录下,需要配置以下7个文件有:

hadoop-env.sh,   yarn-env.sh,   slaves,   core-site.xml,   hdfs-site.xml,   maprd-site.xml,   yarn-site.xml

1.  hadoop-env.sh配置JAVA_HOME

export JAVA_HOME=/home/mupeng/java/jdk1.6.0_35

2.  yarn-env.sh配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/home/mupeng/java/jdk1.6.0_35

3.  slaves配置slave结点

ubuntu-worker
spark-worker1

4.  core-site.xml

<configuration>
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://spark-master:9000</value>
 </property>

 <property>
  <name>io.file.buffer.size</name>
  <value>131072</value>
 </property>
 <property>
  <name>hadoop.tmp.dir</name>
  <value>file:/home/mupeng/opt/hadoop-2.4.0/tmp</value>
  <description>Abasefor other temporary directories.</description>
 </property>
 <property>
  <name>hadoop.proxyuser.spark.hosts</name>
  <value>*</value>
 </property>
 <property>
  <name>hadoop.proxyuser.spark.groups</name>
  <value>*</value>
 </property>
</configuration>

5.  hdfs-site.xml

<configuration>
 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>spark-master:9001</value>
 </property>

  <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/home/mupeng/opt/hadoop-2.4.0/dfs/name</value>
 </property>

 <property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/home/mupeng/opt/hadoop-2.4.0/dfs/data</value>
  </property>

 <property>
  <name>dfs.replication</name>
  <value>3</value>
 </property>

 <property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
 </property>

</configuration>

6.  maprd-site.xml

<configuration>
  <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.address</name>
  <value>spark-master:10020</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>spark-master:19888</value>
 </property>
</configuration>

7.  yarn-site.xml

<configuration>
  <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
  </property>
  <property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
   <name>yarn.resourcemanager.address</name>
   <value>spark-master:8032</value>
  </property>
  <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>spark-master:8030</value>
  </property>
  <property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>spark-master:8035</value>
  </property>
  <property>
   <name>yarn.resourcemanager.admin.address</name>
   <value>spark-master:8033</value>
  </property>
  <property>
   <name>yarn.resourcemanager.webapp.address</name>
   <value>spark-master:8088</value>
  </property>
</configuration>

最后将配置好的hadoop-2.4.1文件夹拷贝到另外两个结点即可。

检查安装是否成功

查看hdfs:http://192.168.248.150:50070/dfshealth.html#tab-datanode,可以看到有两个结点:

查看yarn:http://192.168.248.150:8088/cluster/nodes


OK, 我们的Hadoop2.4.1集群搭建成功。接下来搭建spark集群参见博客Spark1.2.1集群环境搭建——Standalone模式


© 著作权归作者所有

共有 人打赏支持
Jackson_Mu
粉丝 69
博文 17
码字总数 15900
作品 0
海淀
程序员
加载中

评论(4)

d
dream_jackliu
首先非常感谢分享这些
d
dream_jackliu
另外 只是搭建, 你的用户权限 hdfs用户呢 Hadoop 用户呢 作为分享文档 这些细节不可不列出的
Jackson_Mu
Jackson_Mu

引用来自“jiacai2050”的评论

你这严重的标题党,说好的spark呢????
该篇是介绍搭建HDFS和yarn,为后续spark集群搭建做准备。spark搭建博客地址我已经在末尾加上了,谢谢你的提醒,希望我的博客能够对你有所帮助。
jiacai2050
jiacai2050
你这严重的标题党,说好的spark呢????
Spark1.2.1集群环境搭建——Standalone模式

机器准备 笔者有三台机器,左侧栏为ip,右侧为hostname,三台机器都有一个名为spark的用户。 192.168.248.150 spark-master192.168.248.153 ubuntu-worker192.168.248.155 spark-worker1 根据...

Jackson_Mu
2015/03/16
0
13
集群四部曲(三):完美的Spark集群搭建

前面已经成功的搭建了Zookeeper和Hadoop集群,接下来让我们更进一步,实现Spark集群的搭建吧。相比较而言,Spark集群的搭建要简单的许多了,关键是Hadoop已经搭建成功了。此次是基于上次的H...

海岸线的曙光
03/16
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(3)

启动并查看集群的状况 第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述: 启动之后在Master这台机器上使用jps命令,可以看到如下进程信息: 在Slave1 和Slave2上使用j...

Spark亚太研究院
2014/09/10
0
0
windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
0
0
Hadoop2.7.4+Spark2.2.0滴滴云分布式集群搭建过程

1.在滴滴云申请三台服务器(CentOS系统64位7.3) 2.修改hosts文件 修改三台服务器的hosts文件,vim /etc/hosts(需要权限加上sudo vim /etc/hosts),在原文件的基础最后面加上: 修改完成后保存...

14142135623731
06/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JS三元运算示例

1. topFlag=topFlag ==0?1:0; 等于 if(topFlag=00){ topFlag=1; }else if(topFlag == 1){ topFlag=0; } 2. 5>3?alert('5大'):alert('3大'); 即 if(5>3){alert('5大')}else{alert('3大')}; 注......

森火
今天
0
0
利用Slf4j的MDC跟踪方法调用链

why? 一个web项目通常提供很多URL访问地址, 项目一般都是分层处理,例如Controller——>Service——>DAO。 如果想根据日志查看用户一次请求都走了哪些方法(多数是查错误)。 如果系统是多人...

杨春炼
今天
9
0
Maven介绍及安装

Maven介绍及安装 以下内容是本人早期学习时的笔记,可能比较详实繁琐,现在复习一下Maven,顺便将内容抛出来,供大家一起学习进步。 一、Maven简介 Maven是Apache旗下的一款项目管理工具,是...

星汉
今天
0
0
小程序Aes解密

主要步骤: 1、下载AES源码(JS版) 2、在小程序中新建一个公共的文件夹,把AES源码拷贝进去(注意:需要暴露接口 module.exports = CryptoJS;) 3、添加一个用于加密解密的公共JS,可取名为...

Mr_Tea伯奕
今天
0
0
Go实现文件传输(基本传输可用)

发送端 package mainimport ("fmt""os""net""io")func SendFile(path string, connect net.Conn){file, oerr :=os.Open(path)if oerr !=nil{fmt.Println("Open", oerr)......

CHONGCHEN
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部