文档章节

大数据(hadoop-Hadoop2.7.3伪分布搭建)

这很耳东先生
 这很耳东先生
发布于 04/16 20:23
字数 1458
阅读 28
收藏 2

安装准备:

vmware10
Centos6.5 64位版本
JDK1.8linux32位版
Hadoop2.7.3版本

 

安装过程讲解:

 字符界面安装centos6.5,网络设置为主机模式或者桥连接
 配置静态ip 并测试能不能从主机ping的通虚拟机
 使用secureCRT进行远程ssh登陆
 配置etc/hosts 添加ip对应的主机名,比如192.168.17.2 master
 安装ssh 客户端,通过修改本地yum源来进行,成功后重启服务
 关闭防火墙 chkconfig
 创建普通用户 hadoop(名字可自定义)
 设置免密钥ssh登录(伪分布式其实可以省略
 上传jdk和hadoop2.7.3
 使用普通用户登陆,在home目录下创建bd文件夹(非必需)
 分别解压jdk和hadoop2.7.3,并测试
 配置普通用户的环境变量,.bashrc(也可以直接在etc/profile进行配置)
 测试echo $JAVA_HOME
 修改配置5个配置文件
 hadoop-env.sh
 core-site.xml
 hdfs-site.xml
 mapred-sit.xml(将mapred-sit.xml.template重命令)
 yarn-site.xml
 使用jdk下面的bin目录中的jps来查看下进程
 或者查看日志,在hadoop解压目录中logs里面
 在主机windows里面的system32/drivers/etc/hosts里面添加linux主机名对应的linux里面的ip
 通过浏览器进行访问8088端口和50070端口进行测试

具体操作:

1.添加hadoop用户

2.切换到hadoop用户

配置无密码ssh认证连接

...(自查)

获取hadoop安装包

从hadoop的官网获取你需要的版本,本教程采用2.8.X版本的安装包。

官网地址:http://hadoop.apache.org/releases.html

jdk

hadoop自身是用java编写的,所以需要java环境来运行它。需要下载一个和你选择的hadoop版本匹配的JDK安装包。Hadoop版本与java版本的对应关系如下:
    hadoop3.0                    java8
    hadoop2.7及后续版本        java7
    hadoop2.6及以前的版本    java6
为方便安装,我们到java的oracle官网下载一个64位的jdk8的rpm包。

 

安装jdk

...(省略)

 

安装hadoop

上传安装包

Hadoop用户操作:

查看上传的文件

配置hadoop环境变量

为hadoop配置JAVA_HOME

配置hadoop集群

集群配置文件下载地址:

链接:https://pan.baidu.com/s/1R5081Nd82B5u8DLMysnY7A 密码 :ldsq

 

Hadoop基础配置

core-site.xml  核心配置文件

它会被所有的hadoop进程使用。需在该配置文件中配置hadoop集群默认文件系统的访问uri(必需配置),可以指定IO缓冲区的大小等。

这个小集群的的配置如下:

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://192.168.0.11:9000</value>
	</property>
</configuration>

 

HDFS集群配置

hdfs-site.xml  hdfs集群参数配置文件

在该文件配置hdfs集群的参数,常用的配置参数如下,如果都是使用的默认值,则不需进行配置。

  • NameNode相关的参数:

  • DataNode相关的参数:

小集群的配置如下:  

hdfs-site.xml

<configuration>
	<property>
		<description>文件的备份数量</description>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<description>NameNode文件系统名称空间存放目录</description>
		<name>dfs.namenode.name.dir</name>
		<value>/home/hadoop/namespace</value>
	</property>
	<property>
		<description>DataNode上文件数据块的存放目录</description>
		<name>dfs.datanode.data.dir</name>
		<value>/home/hadoop/data</value>
	</property>
</configuration>

从节点(DataNode)列表配置:
在NameNode的etc/hadoop/slaves 文件列出所有的DataNode的ip,一个一行。

10.0.2.20
10.0.2.21
10.0.2.22

 

YARN集群配置

etc/hadoop/mapred-site.xml 配置

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

etc/hadoop/yarn-site.xml 配置

<configuration>

<!-- Site specific YARN configuration properties -->

	<property>
		<description>resourceManager节点的主机地址</description>
		<name>yarn.resourcemanager.hostname</name>
		<value>192.168.0.13</value>
	</property>
	
	<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

</configuration>

 

复制机器

1、复制

2、修改复制机器:
修改主机名:
    hostnamectl set-hostname xxx

修改ip地址:
    vi /etc/sysconfig/network-scripts/ifcfg-enp0s3
    修改 IPADDR=指定ip

重启网络服务
    systemctl restart network

 

启动集群

启动hdfs集群

1、格式化文件系统
$ hdfs namenode -format

2、在NameNode上启动hdfs集群
$ start-dfs.sh

hadoop进程的日志将输出在目录 $HADOOP_HOME/logs下  

3、通过浏览器浏览NameNode的web界面,默认的浏览地址为:
http://namenode-ip:50070
    如 http://192.168.0.111:50070 

可用jps命令查看各个节点上运行的java进程

4、在NameNode上关闭hdfs集群
$ stop-dfs.sh

启动yarn集群

1、启动:在ResourceManager上启动yarn集群
$ start-yarn.sh

2、通过浏览器浏览ResourceManager的web界面,默认的浏览地址为:
http:// ResourceManager-ip:8088
    如 http://192.168.0.111:8088

3、关闭:在ResourceManager上关闭yarn集群
$ stop-yarn.sh

启动jobHistoryServer
mr-jobhistory-daemon.sh start historyserver

 

测试

1、在HDFS上创建执行MapReduce作业所需的目录
$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/<username>

2、将输入文件拷贝到分布式文件系统上:
$ hdfs dfs -mkdir input
$ hdfs dfs -put etc/hadoop/*.xml input

3、运行MapReduce示例作业:
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.3.jar grep input output 'dfs[a-z.]+'

4、查看输出结果文件:
方式一:将分布式文件系统的输出文件拷贝到本地文件系统上,再查看:
$ hdfs dfs -get output output
$ cat output/*

方式二:直接在分布式文件系统上查看输出文件:
    $ hdfs dfs -cat output/*

我们会发现,系统被卡死了,为什么呢?因为机器的内存只有512M,内存被耗尽了。用 ctrl+c强制结束(会等待好长一段时间),再来看一下内存使用情况:

其实我们在启动HDFS、yarn后,内存就用完了。重启系统后,我们启动hdfs、yarn,马上看一下内存的使用情况:

再要执行mapreduce任务又需要很多内存(不够用),根本就执行不了。
解决办法:
1、调高机器的内存到1G
2、运行作业时加入jvm重用参数,如下所示:

hadoop jar /usr/hadoop/latest/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.3.jar grep -Dmapreduce.job.ubertask.enable=true input output5 'hdf[a-z.]+'

 

 

© 著作权归作者所有

这很耳东先生
粉丝 9
博文 110
码字总数 288043
作品 0
广州
私信 提问
Hadoop安装(Hadoop2.7.3)

在Ubantu14.04上部署Hadoop2.7.3 伪分布式集群 01.安装Ubantu14.04(过程略) 02.安装JDK1.8 01)下载JDK1.8,将jdk-8u131-linux-x64.tar.gz上传至ubantu中 02)在根目录下创建soft文件夹,并改变...

小马Ha
2017/07/08
0
0
搭建hadoop集群(先搭伪分,再搭全部)

搭建hadoop集群(先搭伪分,再搭全部) hadoop伪分布搭建流程(都是在普通用户下) ---------------------------- 一)关闭防火墙: chkconfig iptables off service iptables stop service...

aime123456789
2018/05/28
0
0
hadoop的简介与伪分布的搭建

一:大数据hadoop简介 二:hadoop的伪分布安装 三:运行wordcount测试 四:hadoop 常用端口号 五:hadoop的四大模块包含 六:启动脚本: 一: 大数据hadoop简介 二:hadoop的伪分布安装 2.1 ...

flyfish225
2018/04/10
0
0
大数据(hadoop-HDFS的本地开发环境的配置与常见的HDFS的JAVA API)

HDFS的本地开发环境搭建 1:所需工具 1)hadoop2.7.3安装包 2)hadoop-eclipse-plugin插件 https://github.com/winghc/hadoop2x-eclipse-plugin 2:搭建过程 HDFS Java API介绍 configuratio......

这很耳东先生
04/22
4
0
Hadoop 搭建全分布模式子节点的datanode未起来的解决办法

搭建全分布模式hadoop的时候,子节点的datanode没有起来: 解决办法参考如下网站: https://blog.csdn.net/u013310025/article/details/52796233 总结:在全分布模式下,将hadoop文件用scp -...

yeqiang2015
2018/04/21
31
0

没有更多内容

加载失败,请刷新页面

加载更多

Hibernate 5 的模块/包(modules/artifacts)

Hibernate 的功能被拆分成一系列的模块/包(modules/artifacts),其目的是为了对依赖进行独立(模块化)。 模块名称 说明 hibernate-core 这个是 Hibernate 的主要(main (core))模块。定义...

honeymoose
35分钟前
3
0
CSS--属性

一、溢出 当内容多,元素区域小的时候,就会产生溢出效果,默认是纵向溢出 横向溢出:在内容和容器之间再套一层容器,并且内部容器要比外部容器宽 属性:overflow/overflow-x/overflow-y 取值...

wytao1995
53分钟前
4
0
精华帖

第一章 jQuery简介 jQuery是一个JavaScript库 jQuery具备简洁的语法和跨平台的兼容性 简化了JavaScript的操作。 在页面中引入jQuery jQuery是一个JavaScript脚本库,不需要特别的安装,只需要...

流川偑
今天
6
0
语音对话英语翻译在线翻译成中文哪个方法好用

想要进行将中文翻译成英文,或者将英文翻译成中文的操作,其实有一个非常简单的工具就能够帮助完成将语音进行翻译转换的软件。 在应用市场或者百度手机助手等各大应用渠道里面就能够找到一款...

401恶户
今天
3
0
jenkins 插件下载加速最终方案

推荐做法 1、告诉jenkins 我哪些插件需要更新 jenkins插件清华大学镜像地址 https://mirrors.tuna.tsinghua.edu.cn/jenkins/updates/update-center.json 1.进入jenkins系统管理 2.进入插件管...

vasks
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部