文档章节

Hadoop 2.7.4 集群部署

Medvin鱼丸
 Medvin鱼丸
发布于 2017/08/15 16:37
字数 836
阅读 54
收藏 0

时隔两年,温故知新。

主要记录一下新 hadoop 配置

前提准备

1. 3台服务器(虚拟机)

2. 服务器(虚拟机)之间已无密码登录

3. 已安装且把 JDK1.8+ 环境变量配置完成

下载hadoop:http://hadoop.apache.org/releases.html

本文版本 hadoop 2.7.4,已下载且已解压至 /hhz 目录(/hhz/hadoop/)

本文使用 hadoop 目的:MapReduce

本文采用VBOX虚拟机,且都安装CentOS7(最小安装),虚拟机内存 1G,存储 20G

本文虚拟机使用账户权限:root

本文虚拟机 hosts 节点:

192.168.0.117 Master
192.168.0.118 Slave
192.168.0.119 Slave2

hadoop 环境变量

# ~/.bash_profile
export HADOOP_HOME=/hhz/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

hadoop 具体配置

hadoop 配置文件目录:$HADOOP_HOME/etc/hadoop

PS:了解配置文件意思的方法:复制 <name> 去百度,这里只把有意义的写了,其他的可以根据翻译读懂

配置开始:

hadoop-env.sh 文件

        取消 JAVA_HOME 的屏蔽,且把你的 jdk 路径写进去(经测试好像不能准确读取到环境变量里面的 JAVA_HOME 路径,反正我没读取成功)。

slaves 文件(把节点的 hostname 写入进去)

slave
slave2

core-site.xml 文件

<configuration>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    <!-- <value>hdfs://master:9000/hbase</value> -->
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/hhz/hadoop_tmp</value>
</property>
<!-- 垃圾回收(分钟)周期 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>
<!-- 垃圾回收检查间隔(分钟) -->
<property>
	<name>fs.trash.checkpoint.interval</name>
	<value>1440</value>
</property>
<property>
	<name>io.file.buffer.size</name>
	<value>131072</value>
</property>
</configuration>

hdfs-site.xml 文件

<configuration>
<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
<property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
</property>
<property>
    <name>dfs.namenode.http-address</name>
    <value>master:50090</value>
</property>
<!--
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>slave:50090</value>
</property>
-->
<property>
	<name>dfs.namenode.name.dir</name>
	<value>/hhz/hadoop_namenode</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>/hhz/hadoop_datanode</value>
</property>
</configuration>

mapred-site.xml 文件

复制一份 mapred-site.xml.template 且为新文件

cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!--  -->
<property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
</property>
<property>
	<name>mapreduce.cluster.temp.dir</name>
	<value>/hhz/mr_temp</value>
	<final>true</final>
</property>
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>master:10020</value>
</property>
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
	<value>master:19888</value>
</property>
<property>
	<name>mapreduce.map.memory.mb</name>
	<value>2000</value>
</property>
<!-- 可以根据自己硬件调整,这里是虚拟机所以调小点 -->
<property>
	<name>mapreduce.map.java.opts</name>
	<value>-Xmx500M</value>
</property>
</configuration>

yarn-site.xml 文件

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
<property>
    <name>yarn.web-proxy.address</name>
    <value>master:8888</value>
</property>
<!--
<property>
	   <name>yarn.resourcemanager.address</name>
	   <value>master:8032</value>
 </property>
 <property>
	  <name>yarn.resourcemanager.scheduler.address</name>
	  <value>master:8030</value>
  </property>
 <property>
	 <name>yarn.resourcemanager.resource-tracker.address</name>
	 <value>master:8031</value>
 </property>
 <property>
	 <name>yarn.resourcemanager.admin.address</name>
	 <value>master:8033</value>
 </property>
 <property>
	 <name>yarn.resourcemanager.webapp.address</name>
	 <value>master:8088</value>
 </property>
-->

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

<property>
	<name>yarn.log.dir</name>
	<value>/hhz/yarn_log</value>
</property>

<!-- 根据自己硬件配置可调整,建议最低就我这配置 -->
<property>
	<name>yarn.nodemanager.resource.memory-mb</name>
	<value>512</value>
</property>
<property>
	<name>yarn.scheduler.maximum-allocation-mb</name>
	<value>512</value>
</property>
<property>
	<name>yarn.scheduler.minimum-allocation-mb</name>
	<value>256</value>
</property>
</configuration>

启动

        把配置好的 hadoop 都依次复制到每个虚拟机,保证目录结构,JDK配置及路径,hadoop目录结构都一致,然后才可以格式化,否则会出现各类问题。

初始化 namenode 和 datanode(/hhz/hadoop/bin)

#
hadoop namenode -format
#
hadoop datanode -format

启动 hadoop 集群(/hhz/hadoop/sbin)

sh start-all.sh

查看

jps

启动成功后可以查看情况

http://master:8088

http://master:50090

特意说明:

以上配置在真机上也完美通过~

相关配置均可根据需求调整~

具体文件均可复制其名进行谷歌或者百度搜索了解详情~

© 著作权归作者所有

Medvin鱼丸
粉丝 2
博文 20
码字总数 12745
作品 0
成都
程序员
私信 提问
Hadoop-2.7.4 集群快速搭建

摘要:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high thro...

souyunku
2018/01/07
0
0
LinkedIn开放用于Hadoop性能测试工具

LinkedIn今天发布了一个 名为Dynamometer的开源项目 ,帮助企业在不使用大量基础架构的情况下对大规模Hadoop大数据处理系统进行压力测试。 该工具旨在防止企业社交网络在2015年初遇到的问题,...

高效码农
2018/02/12
1
0
Hadoop-Streaming(Python篇)

问题反馈 部署或使用时有不明白的可以联系我 Wechat:Leo-sunhailin QQ: 379978424 目录 搭建环境 下载方式 代码示例 问题反馈 总结 搭建环境 系统环境: Win10(64位) <-- 一定要64位 Linux暂时...

NullSpider
2017/11/24
0
0
Kylin集群部署和cube使用

Kylin集群部署和cube使用 安装集群环境 节点 Kylin节点模式 Ip 内存 磁盘 Node1 All 192.167.71.11 2G 80G Node2 query 192.168.71.12 1.5G 80G Node3 query 192.168.71.13 1.5G 80G Kylin工......

仔仔1993
2018/07/05
1K
0
Apache Hive-2.3.0 快速搭建与使用

Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并...

PengLei
2017/09/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

分布式协调服务zookeeper

ps.本文为《从Paxos到Zookeeper 分布式一致性原理与实践》笔记之一 ZooKeeper ZooKeeper曾是Apache Hadoop的一个子项目,是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它...

ls_cherish
今天
4
0
redis 学习2

网站 启动 服务端 启动redis 服务端 在redis 安装目录下 src 里面 ./redis-server & 可以指定 配置文件或者端口 客户端 在 redis 的安装目录里面的 src 里面 ./redis-cli 可以指定 指定 连接...

之渊
昨天
2
0
Spring boot 静态资源访问

0. 两个配置 spring.mvc.static-path-patternspring.resources.static-locations 1. application中需要先行的两个配置项 1.1 spring.mvc.static-path-pattern 这个配置项是告诉springboo......

moon888
昨天
4
0
hash slot(虚拟桶)

在分布式集群中,如何保证相同请求落到相同的机器上,并且后面的集群机器可以尽可能的均分请求,并且当扩容或down机的情况下能对原有集群影响最小。 round robin算法:是把数据mod后直接映射...

李朝强
昨天
4
0
Kafka 原理和实战

本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/bV8AhqAjQp4a_iXRfobkCQ 作者简介:郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平...

vivo互联网技术
昨天
24
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部