文档章节

Hadoop集群搭建

一只石头
 一只石头
发布于 2016/04/11 10:55
字数 1255
阅读 87
收藏 7
点赞 1
评论 1

1、安装虚拟机

虚拟机:VMware-workstation 11.0.0

操作系统:CentOS-6.5 64

2、安装Xmanager

版本:Xmanager-v5.0.0,完成安装后,使用Xshell连接linux虚拟机,连接成功。

往虚拟机里拉文件比较方便,但是当虚拟机网络连接改为桥接模式后变不能使用这个了。

3、创建用户组和用户

创建用户组:groupadd hadoop

添加用户:useradd hadoop -g hadoop

4、安装jdk

a)安装包:jdk-7u21-linux-i586.tar.gz(不推荐使用rpm格式)

b)解压到/opt文件目录:tar -zxvf jdk-7u21-linux-i586.tar.gz -C /opt

c)改名为javamv jdk1.7.0_21 java

d)配置环境变量:vi /etc/profile,添加如下内容

  export JAVA_HOME=/opt/java
  exprot PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

e)使配置文件立即生效:source /etc/profile

f)设置所有者为hadoopchown -R hadoop:hadoop java/

5、安装Hadoop

a)安装包:hadoop-2.6.3.tar.gz

b)解压到/opt,改名为hadoop

c)设置环境变量:vi /etc/profile,添加如下内容

 

  export HADOOP_HOME=/opt/hadoop
 export PATH=$HADOOP_HOME/bin:$PATH

 

 

d)使配置文件立即生效:source /etc/profile

e)设置所有者为hadoopchown -R hadoop:hadoop hadoop/

f)在hadoop目录下新建三个文件目录:mkdir name/ ; mkdir data/ ; mkdir tmp/

6、修改地址解析文件/etc/hosts

命令:vi /etc/hosts,添加如下内容

192.168.253.131 master
192.168.253.132 data1
192.168.253.133 data2

 

 

7、修改hadoop配置文件

切换到hadoop用户,修改hadoop/etc/hadoop(老版本是hadoop/conf)下的配置文件:

a)hadoop-env.shyarn-env.sh

修改:

export JAVA_HOME=/opt/java

 

 

bcore-site.xml <configuration> </configuration>标签中添加如下内容:

 

<property>
    <name>hadoop.tmp.dir</name>
    <value>file:/opt/hadoop/tmp</value>
 </property>
 <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
 </property>                         
 <property>     
    <name>io.file.buffer.size</name>
    <value>131072</value>
 </property>
 <property>
    <name>hadoop.proxyuser.u0.hosts</name>
    <value>*</value>
 </property>
 <property>
    <name>hadoop.proxyuser.u0.groups</name>     
    <value>*</value>
 </property>

 

 

 

chdfs-site.xml <configuration></configuration>标签中添加如下内容:

  

<property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>master:9001</value>
 </property>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/opt/hadoop/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/opt/hadoop/data</value>
 </property>
 <property>
     <name>dfs.replication</name>
     <value>3</value>
 </property>
 <property>
     <name>dfs.webhdfs.enabled</name>
     <value>true</value>
 </property>

 

 

 

   d)默认只有mared-site.xml.template复制并命名:cp mared-site.xml.template mared-site.xml

    在<configuration></configuration>标签中添加如下内容:

 

   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
 <property>
     <name>mapreduce.jobhistory.address</name>
     <value>master:10020</value>
 </property>
 <property>
     <name>mapreduce.jobhistory.webapp.address</name>
     <value>master:19888</value>
 </property>

 

 

   eyarn-site.xml

    在<configuration></configuration>标签中添加如下内容:

  <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
  </property>
  <property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
   <name>yarn.resourcemanager.address</name>
   <value>master:8032</value>
  </property>
  <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>master:8030</value>
  </property>
  <property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>master:8035</value>
  </property>
  <property>
   <name>yarn.resourcemanager.admin.address</name>
   <value>master:8033</value>
  </property>
  <property>
   <name>yarn.resourcemanager.webapp.address</name>
   <value>master:8088</value>
  </property>

 

 

f配置slaves文件-->>增加slave节点 

vi slaves
data1
data2

 

 

8、克隆

完整克隆出两个虚拟机,改hostnamevi /etc/hostname,分别为masterdata1data2

9、配置虚拟机网络

虚拟机安装后默认的是NAT模式,自动获取ip,本机能上网,虚拟机就能上网。Haoop集群部署,最好是把三个虚拟机设为桥接模式,就需要注意把三个ip设在同一个网段。

由于克隆后的系统,虚拟机只是修改了虚拟机的名字MAC等,并在/etc/udev/rules.d/70-persistent-net.rules文件中增加了一行名为eth1的设备名,

1vi /etc/udev/rules.d/70-persistent-net.rules 文件 

删除掉 关于 eth0 的信息修改 第二条 eth1 的网卡的名字为 eth0

2vi /etc/udev/rules.d/70-persistent-net.rules/etc/sysconfig/network-scripts/ifcfg-eth0

中的MAC地址要与虚拟机网卡的MAC地址相对应。

3vi /etc/sysconfig/network-scripts/ifcfg-eth0

修改UUIDIPADDR

到此:在masterping data1data2,能ping通,网络就配置好了

10、SSH无密码登录

1)产生密钥

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

2)导入authorized_keys

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3)试验看是否安装成功

#查看是否有sshd进程  ps -e | grep ssh

#尝试登录本地  ssh localhost

4)密钥共享

#如下:hadoop是我的用户名

#进入master.ssh目录

scp authorized_keys hadoop@data1:~/.ssh/authorized_keys_master

#进入data1.ssh目录

cat authorized_keys_master  >>  authorized_keys

scp authorized_keys hadoop@data2:~/.ssh/authorized_keys_master

#进入data2.ssh目录

cat authorized_keys_master  >>  authorized_keys

#此时的authorized_keys已经包含了三个虚拟机的密钥,复制给masterdata1

scp authorized_keys hadoop@master:~/.ssh/authorized_keys

scp authorized_keys hadoop@data1:~/.ssh/authorized_keys

5)无密码登录测试

ssh data1

ssh data2

...

11、配置Hadoop环境变量

export JAVA_HOME=/opt/java
export HADOOP_HOME=/opt/hadoop
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:
$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

 

 

前面已经配置过jdk的环境变量,只需再加上hadoop的就行

12、启动hadoop

hadoop namenode -format

start-all.sh

查看进程:jps

出现错误

-bash: /opt/java/bin/jps: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory

yum install glibc.i686

下载失败的话,使用如下方法

 

配置yum本地 安装缺少包(适合OEL)

mount /dev/cdrom1 /mnt

cd /etc/yum.repos.d 把里面CentOS开头的(默认的网络下载相关文件)备份到aa(文件夹)

vi /etc/yum.repos.d/rhel-source.repo

[rhel-source]

name=Red Hat Enterprise Linux $releasever - $basearch - Source

baseurl=file:///mnt/

enabled=1

gpgcheck=0

 

yum install glibc.i686

 

作者的话:该文档只是自己尝试搭建hadoop做的一个笔记,有不清楚或者不对的地方还望见谅,如果发现不对的地方,望指明,共同学习,共同进步。 

 

 

 

 

© 著作权归作者所有

共有 人打赏支持
一只石头
粉丝 3
博文 38
码字总数 13898
作品 0
郑州
程序员
加载中

评论(1)

vivicai
vivicai
good
HBase1.2.6集群部署教程

1.引言 在前面的博客中我们介绍HBase的伪分布安装,在本篇博客中就主要介绍一下HBase的集群部署,由于HBase是一款Hadoop之上的NoSQL数据库,因此我们在安装HBase之前需要首先部署Hadoop的集群...

Liri ⋅ 2017/12/16 ⋅ 0

(13)HBase 1.2.6 集群部署

1.引言 在前面的博客中我们介绍的伪分布安装,在本篇博客中就主要介绍一下的集群部署,由于是一款之上的数据库,因此我们在安装之前需要首先部署的集群,其次需要使用进行管理,因此我们也需...

LoveCarpenter ⋅ 2017/12/15 ⋅ 0

Spark2.0.0集群部署教程

1.引言 在前面的博客中介绍了Spark的伪分布安装,在本篇博客中将介绍一下Spark的集群部署,在本博客中Spark的调度采用Hadoop的Yarn平台,因此在安装Spark之前,需要先部署Hadoop的集群,因为...

Liri ⋅ 2017/12/16 ⋅ 0

Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个question,一个可能的解决方案就是搭建Hadoop集群,但它并不适合...

八戒_o ⋅ 2015/12/11 ⋅ 0

(14)Spark 2.0.0 集群部署

1.引言 在前面的博客中介绍了Spark的伪分布安装,在本篇博客中将介绍一下Spark的集群部署,在本博客中Spark的调度采用Hadoop的Yarn平台,因此在安装Spark之前,需要先部署的集群,因为我在安...

LoveCarpenter ⋅ 2017/12/15 ⋅ 0

(11)Hadoop 2.6.1 集群部署---手工切换HA

1. 引言 在生产环境中的高可用是非常重要的,一旦宕机,那么整合集群就不能用了,在本篇博客中就主要介绍一下的部署(手动切换),在本篇博客中博主使用五台干净的机器从零开始搭建集群环境,...

LoveCarpenter ⋅ 2017/12/15 ⋅ 0

(12)Hadoop 2.6.1 集群部署---自动切换HA

1. 引言 在上篇博客中介绍了的手动切换,这在生产环境中还是不尽人意,因为工作人员可能并不会及时的知道什么时候宕机?因此在生产环境中实现的动态切换是十分有必要的,在本篇博客中就主要介...

LoveCarpenter ⋅ 2017/12/15 ⋅ 0

Hadoop2.6.1集群部署之手工切换HA

1. 引言 在生产环境中NameNode的高可用是非常重要的,一旦NameNode宕机,那么整合集群就不能用了,在本篇博客中就主要介绍一下Hadoop2.6.1的HA部署(手动切换),在本篇博客中博主使用五台干...

Liri ⋅ 2017/12/16 ⋅ 0

(9)Hadoop 2.6.1 集群部署——未配置HA

1. 引言 在前面的博客中,我曾经介绍了的伪分布配置,但是在实际工作中最常见的是集群部署,在本篇博客中就主要介绍一下的集群部署(未配置),在本篇博客中使用五台新安装的机器,从零部署。...

LoveCarpenter ⋅ 2017/12/14 ⋅ 0

Hive从入门到实战视频教程【40讲全】

1、Hive是什么,Hive的体系结构,Hive和Hadoop的关系 2、Hive的元数据存储、Hive的数据存储、Hive和RDBMS的区别 3、JDK安装 4、Hadoop集群搭建-1 5、Hadoop集群搭建-2 6、Hadoop集群搭建-3 ...

tom先生 ⋅ 2014/11/26 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Centos7重置Mysql 8.0.1 root 密码

问题产生背景: 安装完 最新版的 mysql8.0.1后忘记了密码,向重置root密码;找了网上好多资料都不尽相同,根据自己的问题总结如下: 第一步:修改配置文件免密码登录mysql vim /etc/my.cnf 1...

豆花饭烧土豆 ⋅ 49分钟前 ⋅ 0

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 今天 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 今天 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 2

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部