文档章节

大数据学习系列----安装Hadoop

春哥大魔王的博客
 春哥大魔王的博客
发布于 2017/05/25 15:51
字数 929
阅读 35
收藏 0

环境

  • 角色 主机名 IP 功能 存储分区
  • Master wx 192.168.1.22 NameNode|Secondarynamenode|JobTracker /data
  • Slave test1 192.168.1.23 DataNode|TaskTracker /data
  • Slave test2 192.168.1.24 DataNode|TaskTracker /data

部署

无密钥登录

部署Hadoop需要Master无密码访问所有Slave主机,需要配置ssh登录认证:

192.168.1.22:

ssh-keygen -t rsa #生成密钥对。一路回车,在/root/.ssh/目录下会生成id_rsa(私钥)、id_rsa.pub(公钥)密钥对

ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.1.23 #将公钥发送的被控主机

安装java

ssh登录Master主机,安装JDK环境(本次安装的是java1.7,使用的是yum安装,也可以根据需要采用源码安装):

yum install java-1.7.0* -y

安装Hadoop

wget http://apache.fayea.com/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz tar -zxvf hadoop-2.6.4.tar.gz

解压完成后修改配置文件:

【hadoop-2.6.4/etc/hadoop/hadoop-env.sh】

hadoop-env.sh:配置环境变量,指定JAVA_HOME

#export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.111.x86_64 #将上面的${JAVA_HOME}修改为本机的java路径

【hadoop-2.6.4/etc/hadoop/core-site.xml】 core-site.xml:Hadoopcore配置项,主要针对Common组件的属性配置。

<configuration>
<property>
  <name>hadoop.tmp.dir</name> #Hadoop用户的临时存储目录(可自定义路径),默认路径为:/tmp/hadoop-${user.name}
  <value>/data/tmp/hadoop-${user.name}</value>
</property>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://192.168.1.22:9000</value> #master主机IP:9000端口
</property>
</configuration>

【hadoop-2.6.4/etc/hadoop/hdfs-site.xml】 hdfs-site.xml:Hadoop的HDFS组件的配置项,包括Namenode、Secondarynamenode和Datanode

<configuration>
<property>
  <name>dfs.namenode.name.dir</name> #Namenode持久存储名字空间、事务日志路径
  <value>/data/hdfs/name</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name> #Datanode数据存储路径
  <value>/data/hdfs/data</value>
</property>
<property>
  <name>dfs.datanode.max.xcievers</name> #Datanode所允许同时执行的发送和接收任务数量,默认为256
  <value>4096</value>
</property>
<property>
  <name>dfs.replication</name> #数据备份的个数,默认为3
  <value>2</value>
</property>
<property>
  <name>dfs.namenode.secondary.http-address</name>  #配置Secondarynamenode地址
  <value>192.168.1.22:50090</value>
</property>
</configuration>

【hadoop-2.6.4/etc/hadoop/mapred-site.xml】 mapred-site.xml:配置map-reduce组件的属性,包括jobtracker和tasktracker。

<configuration>
<property>
  <name>mapreduce.framework.name</name>  #使用yarn框架(MapReduce框架)
  <value>yarn</value>
</property>
<property>
  <name>mapreduce.jobhistory.address</name>  #MapReduce JobHistory Server地址
  <value>192.168.1.22:10020</value>
</property>
<property>
  <name>mapreduce.jobhistory.webapp.address</name>   #MapReduce JobHistory Server Web UI地址
  <value>192.168.1.22:19888</value>
</property>
</configuration>

【hadoop-2.6.4/etc/hadoop/yarn-site.xml】

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
  <name>yarn.resourcemanager.hostname</name>   #ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等
  <value>192.168.1.22</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>   #NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序
  <value>mapreduce_shuffle</value>
</property>
</configuration>

【hadoop-2.6.4/etc/hadoop/masters】 该配置文件Master端生效 masers:配置Secondarynamenode项,起到HDFS文件系统元数据(metadata)信息的备份作用,当NameNode发生故障后可以快速还原数据。

192.168.1.22 #本次Namenode和Secondnamenode在同一台服务器上,生产环境应该分别使用独立的服务器

【hadoop-2.6.4/etc/hadoop/slaves】 slaves:配置所有Slave主机信息,填写IP地址即可。该配置文件放在Master端生效

192.168.1.23 192.168.1.24

配置完成后,从Master端复制Hadoop环境到所有Slave端,目标路径要与Master保持一致。java环境也要保持一致。

scp -r /usr/local/hadoop-2.6.4/ root@192.168.1.23:/usr/local/ scp -r /usr/local/hadoop-2.6.4/ root@192.168.1.24:/usr/local/

配置环境变量

vim .bashrc

#JAVA
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.111.x86_64
#Hadoop
export HADOOP_HOME=/usr/local/hadoop-2.6.4
export PATH=$PATH:/usr/local/hadoop-2.6.4/bin:/usr/local/hadoop-2.6.4/sbin

在启动hadoop之前,我们需要做一步非常关键的步骤,需要在Master端格式化文件系统的namenode。(启动只在Master端做,Slave不用)

hdfs namenode -format

启动

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

至此,安装成功。

访问测试

http://192.168.1.22:50070 HDFS存储管理地址 http://192.168.1.22:8088 Map/Reduce管理地址

问题

问题:

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 解决:

wget http://dl.bintray.com/sequenceiq/sequenceiq-bin/hadoop-native-64-2.6.0.tar 解压到 hadoop-2.6.4/lib/native/

© 著作权归作者所有

春哥大魔王的博客
粉丝 39
博文 296
码字总数 268636
作品 0
海淀
程序员
私信 提问
Hadoop实战开发教程 Hadoop学习视频资料汇总

Hadoop实战开发教程 Hadoop学习视频汇总 Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技...

beifangbubai
2014/07/28
3.6K
4
Hadoop家族学习路线图(转)

Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN,...

冯辉
2016/11/03
39
0
我想学习一下Hadoop,有没有比较好的视频教程可以推荐一下的?

关于大数据的视频教程,那个系列的比较好,请推荐一下,谢谢。 还有从没有基础学习hadoop,大约需要多少时间能掌握?

文心雕码
2014/07/25
5K
10
Hadoop家族学习路线图

权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增...

_Mr_Computer_
2016/07/13
0
0
Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora ...

杨尚川
2015/01/31
18.9K
9

没有更多内容

加载失败,请刷新页面

加载更多

OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
5
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
6
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
昨天
6
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
7
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部