文档章节

Hadoop 伪分布安装

Joeson_
 Joeson_
发布于 2017/08/30 10:51
字数 1851
阅读 46
收藏 1
点赞 1
评论 0

Hadoop 安装模式

Hadoop 一共有三种安装模式:

  • Hadoop 单机安装
    • Hadoop 运行在单台服务器上,无需进行其他配置即可运行。
    • 单Java进程,方便进行测试。
    • Hadoop读取的是本地的文件系统,而非HDFS.
  • Hadoop 伪分布安装
    • Hadoop 运行在单台服务器上,需要修改配置文件。
    • 单台服务器运行多个角色 Namenode、DataNode、NodeManager、ResourceManager
    • Hadoop 从HDFS读取数据。
  • Hadoop集群安装
    • Hadoop 运行在多台服务器,需要对不同进程进行规划,运行在不同节点上。
    • 通过hadoop 配置文件完成进程角色的分配
    • 需要通过Zookeeper 组件实现Namenode和 ResourceManager 的HA

Hadoop 安装前环境准备---关闭防火墙

防火墙是对我们的服务器进行的一种保护,但是有时候也妨碍Hadoop集群间的相互通讯,为了学习的方便,我们需要关闭防火墙。 CentOS 7.0默认使用的是firewall作为防火墙。

关闭防火墙

  • centos 7.0 关闭防火墙
    • systemctl stop firewalld.service #停止firewall
    • systemctl disable firewalld.service #禁止firewall开机启动
    • firewall-cmd --state #查看默认防火墙状态(关闭后显示not running,开启后显示running)
  • centos 6.0 关闭防火墙
    • 临时性关闭 service iptables stop/start
    • 永久性关闭 chkconfig iptables off/on 需要重启服务器
    • 查看防火墙状态 service iptables status

Hadoop 安装前环境准备---绑定hostname与IP

为了方便操作和访问hadoop集群,我们需要绑定hostname与IP

绑定host name 与IP

  • 修改/etc/hosts配置文件 vi /etc/hosts

Hadoop 安装前环境准备---创建Hadoop用户

hadoop集群搭建的过程中,为了集群安全考虑,我们一般不直接使用超级用户root,而是需要我们新建一个新的用户,比如hadoop。

创建Hadoop用户

  • 创建hadoop用户命令
    • useradd -m hadoop
  • 为hadoop用户设置密码
    • passwd hadoop

Hadoop 安装前环境准备---SSH免密码登录

Hadoop 启动或者停止脚步是需要通过SSH发送命令启动相关守护进程,为了避免每次启动或者停止Hadoop输入密码进行验证,需设置免密码登录

配置SSH免密码登录

  • 切换到hadoop用户
    • su hadoop
  • 创建 .ssh 文件
    • mkdir .ssh
  • 生成rsa秘钥
    • ssh -keygen -t rsa (创建完一直回车)

 

 

生成到认证文件中

  • cat idrsa.pub >> authorized_keys

 

  • 对.ssh目录进行授权
    • chmod 700 .ssh
    • chmod 600 .ssh/* 对.ssh目录下的
  • SSH免密码登录
    • ssh hy001 第一次会有确认操作 第二次再登录就可以不用输入密码登录了

 

Hdoop 安装前环境准备---jdk安装

因为hadoop 运行环境是JVM,所以我们需要提前安装和配置jdk.

jdk安装

  • 下载并解压
    • java jdk 下载地址:http://www.oracle.com/technetwork/java/javase/archive-139210.html

 centos7 修改openjdk 方法:

[root@hy003 app]# update-alternatives --install /usr/bin/java java /home/hadoop/app/jdk1.7.0_79/bin/java 60
[root@hy003 app]# update-alternatives --config java
	共有 3 个提供“java”的程序。
	选项       命令
	*+ 1     java-1.8.0-openjdk.x86_64 (/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102- 4.b14.el7.x86_64/jre/bin/java)
	 2       java-1.7.0-openjdk.x86_64 (/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64/jre/bin/java)
	 3       /home/hadoop/app/jdk1.7.0_79/bin/java
	
按 Enter 保留当前选项[+],或者键入选项编号:3
[root@hy003 app]# java -version
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)

Hadoop 单机安装

Hadoop 单机安装

  • 下载并解压Hadoop2.6安装包
    • 下载地址:https://archive.apache.org/dist/hadoop/common/
    • 解压:tar -zxvf hadoop-2.6.0.tar.gz
    • 验证单机模式是否安装成功 bin/hadoop version

  • 测试运行
  • 在hadoop-2.6.0 下新建一个 txt 文件 joe.txt

vi joe.txt

hadoop qiaohaiyan 
hadoop qiaohaiyan 
hadoop qiaohaiyan 
hadoop qiaohaiyan
  • 测试运行单机版

输入命令: bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount joe.txt output 查看运行结果:cat output/part-r-00000

 

Hadoop 伪分布集群安装

配置hadoop相关配置文件,

创建hadoop安装目录软连接,

配置hadoop环境变量,

创建hadoop相关数据目录,

格式化Namenode, 启动Hadoop伪分布集群 ,

Web UI 查看HDFS、 YARN

测试运行Hadoop伪分布集群

 

配置hadoop相关配置文件

    配置hadoop相关配置文件, 
    创建hadoop安装目录软连接, 
    配置hadoop环境变量, 
    创建hadoop相关数据目录, 
    格式化Namenode, 
    启动Hadoop伪分布集群 ,
    Web UI 查看HDFS、 YARN
    测试运行Hadoop伪分布集群 

配置hadoop相关配置文件

core-site.xml 文件配置

    <configuration>
    <property>
           <name>fs.defaultFS</name>
           <value>hdfs://hy001:9000</value>
            <!--设置HDFS服务的主机名和端口号 -->
    </property>
    <property>
           <name>io.file.buffer.size</name>
           <value>131072</value>
    </property>
    <property>
           <name>hadoop.tmp.dir</name>
           <value>file:/home/hadoop/data/tmp</value>
            <!--这里的路径默认是 NameNode 、DataNode 等存放数据的公共临时目录 -->
           <description>Abase for other temporary directories.</description>
    </property>
    <property>
           <name>hadoop.proxyuser.hadoop.hosts</name>
           <value>*</value>
            <!-- 不管谁提交的都变成 hadoop 提交的  -->
    </property>
    <property>
           <name>hadoop.proxyuser.hadoop.groups</name>
           <value>*</value>
    </property>
    </configuration>

hdfs-site.xml 文件配置

    <configuration>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/home/hadoop/data/dfs/name</value>
            <description>Determineswhere on the local filesystem the DFS name node should store the name table. Ifthis is a comma-delimited list of directories then the name table is replicatedin all of the directories, for redundancy. </description>
            <final>true</final>
            <!-- 设置HDFS中的Namenode 文件目录  -->
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>/home/hadoop/data/dfs/data</value>
            <description>Determineswhere on the local filesystem an DFS data node should store its blocks. If thisis a comma-delimited list of directories, then data will be stored in all nameddirectories, typically on different devices.Directories that do not exist areignored.
            </description>
            <final>true</final>
            <!-- 设置HDFS中的datanode 文件目录  -->
        </property>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
            <!-- 设置数据块副本  -->
        </property>
        <property>
            <name>dfs.permissions</name>
            <value>false</value>
            <!-- hdfs的访问权限设置为false  -->
            </property>
        </configuration>

mapred-site.xml 文件配置

        <configuration>
            <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <!-- 指定运行 mapreduce 的环境为yarn  -->
            </property>
        </configuration>

yarn-site.xml 文件配置

    <configuration>
    <!-- Site specific YARN configuration properties -->
    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
            <!-- 为了能够运行MapReduce程序,需要让NodeManager在启动时加载shuffle server  -->
    </property>
    </configuration>

slaves 文件配置

    将文件中localhost 修改成 hy001

创建hadoop安装目录软连接 配置hadoop环境变量

  • 创建hadoop软连接 执行 ln -s hadoop-2.6.0 hadoop
  • 配置hadoop环境变量 vi ~/.bashrc

    JAVA_HOME=/home/hadoop/app/jdk
    HADOOP_HOME=/home/hadoop/app/hadoop
    CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
    export JAVA_HOME CLASSPATH PATH HADOOP_HOME
    
  • 使环境变量生效 执行 source ~/.bashrc

创建hadoop相关目录

    [hadoop@hy001 ~]$ pwd
    /home/hadoop
    [hadoop@hy001 ~]$ mkdir -p data/tmp
    [hadoop@hy001 ~]$ mkdir -p data/dfs/name
    [hadoop@hy001 ~]$ mkdir -p data/dfs/data
    [hadoop@hy001 ~]$ ls
    app  data

格式化Namenode

    [hadoop@hy001 hadoop]$ bin/hdfs namenode -format

启动启动Hadoop伪分布集群

    sbin/start-all.sh
    查看各节点启动情况: jps

    [hadoop@hy001 hadoop]$ jps
    7080 SecondaryNameNode
    7218 ResourceManager
    8217 Jps
    6806 NameNode
    6901 DataNode
    7311 NodeManager

Web UI 查看HDFS、 YARN

    访问HDFS 因为咱们没配置 HDFS 端口号 默认的为 50070
    http://192.168.1.114:50070

    访问 yarn 默认端口为 8088  
    http://192.168.1.114:8088   

测试运行Hadoop伪分布集群

创建一个目录 qiao

    [hadoop@hy001 hadoop]$ bin/hdfs dfs -mkdir /qiao
    [hadoop@hy001 hadoop]$ bin/hdfs dfs -ls /
    Found 1 items
    drwxr-xr-x   - hadoop supergroup          0 2017-08-29 17:22 /qiao
将joe.txt 文件放到 qiao这个目录中
    [hadoop@hy001 hadoop]$ bin/hdfs dfs -put joe.txt /qiao
    [hadoop@hy001 hadoop]$ bin/hdfs dfs -ls /qiao
    Found 1 items
    -rw-r--r--   1 hadoop supergroup         72 2017-08-29 17:24 /qiao/joe.txt

    [hadoop@hy001 hadoop]$ jps
    8997 Jps
    7080 SecondaryNameNode
    7218 ResourceManager
    6806 NameNode
    6901 DataNode
    7311 NodeManager
执行hadoop的 wordcount 计算命令
    [hadoop@hy001 hadoop]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /qiao/joe.txt /qiao/output

    [hadoop@hy001 hadoop]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount hdfs://192.168.1.114:9000/qiao/joe.txt hdfs://192.168.1.114:9000/qiao/output2

查看运行结果
    [hadoop@hy001 hadoop]$ bin/hdfs dfs -cat /qiao/output/*
    hadoop  4
    qiaohaiyan  4
    [hadoop@hy001 hadoop]$ 

© 著作权归作者所有

共有 人打赏支持
Joeson_
粉丝 6
博文 9
码字总数 8444
作品 0
大兴
程序员
Spark2.0.0伪分布安装教程

Spark2.0.0伪分布安装教程 1.引言 Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有MapReduce所具有的优点;但不同于MapReduce的是——中间输出结果可以保存在内存中,从而不...

Liri ⋅ 2017/12/13 ⋅ 0

(6)Spark 2.0.0 伪分布安装

1.引言 是专为大规模数据处理而设计的快速通用的计算引擎。拥有所具有的优点;但不同于的是——中间输出结果可以保存在内存中,从而不再需要读写,因此能更好地适用于数据挖掘与机器学习等需...

LoveCarpenter ⋅ 2017/12/13 ⋅ 0

hadoop的简介与伪分布的搭建

一:大数据hadoop简介 二:hadoop的伪分布安装 三:运行wordcount测试 四:hadoop 常用端口号 五:hadoop的四大模块包含 六:启动脚本: 一: 大数据hadoop简介 二:hadoop的伪分布安装 2.1 ...

flyfish225 ⋅ 04/10 ⋅ 0

Hadoop手把手逐级搭建,从单机伪分布到高可用+联邦(1)单机伪分布

总体概述 1. 目标 2. 工具及版本 3. 四个阶段 第一阶段: hadoop单机伪分布(single) 0. 步骤概述 1. 配置网络修改主机名 1.1 查看VMware虚拟网络 1.2 配置虚拟机网卡ifcfg-eth0 1.3 设置NETWO...

bigablecat ⋅ 2017/12/26 ⋅ 0

Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。 (一)Hadoop伪分布安装 1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系...

a2011480169 ⋅ 2016/06/15 ⋅ 0

HBase(二):HBase安装

一:准备 HBase和Hadoop一样支持三种运行模式:单机模式,伪分布模式和完全分布模式。而安装伪分布模式时,务必确保Hadoop也运行在相应的模式下。 Hadoop的安装:http://my.oschina.net/gen...

牧羊人Berg ⋅ 2016/05/12 ⋅ 0

(5)HBase 1.2.6伪分布安装

1.引言 是一个分布式的、面向列的开源数据库,是建立领域的数据库。不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。在本篇博客中主要介绍如何安装的伪分布,博主的环境为...

LoveCarpenter ⋅ 2017/12/11 ⋅ 0

HBase1.2.6伪分布安装教程

1.引言 HBase是一个分布式的、面向列的开源数据库,HBase是建立Hadoop领域的数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。在本篇博客中主要介绍如何安装H...

Liri ⋅ 2017/12/11 ⋅ 0

ubuntu12.04下hadoop单机模式和伪分布模式环境搭建

1.添加hadoop组(专门用来进行hadoop测试)到系统用户: 2.在hadoop中添加hadoop用户: 3.赋予hadoop管理员权限 ( 如果不想新建用户,只在自己现有用户下搭建,上面三步可以省去直接进入第四步...

lcj1992 ⋅ 2014/01/07 ⋅ 2

#hadoop#单机(伪分布)安装及测试

tips:这个部署完全在以root用户操作,系统为ubuntu14.04,使用了Oracle JDK7_u55替换原来的OpenJDK 安装过程: 安装Java: 从自己的宿主机ftp服务器下载包: cd /usr/lib/jvmwget ftp://19...

Hochikong ⋅ 2014/09/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Confluence 6 从其他备份中恢复数据

一般来说,Confluence 数据库可以从 Administration Console 或者 Confluence Setup Wizard 中进行恢复。 如果你在恢复压缩的 XML 备份的时候遇到了问题,你还是可以对整个站点进行恢复的,如...

honeymose ⋅ 7分钟前 ⋅ 0

myeclipse10 快速搭建spring boot开发环境(入门)

1.创建一个maven的web项目 注意上面标红的部分记得选上 2.创建的maven目录结构,有缺失的目录可以自己建立目录补充 补充后 这时候一个maven的web项目创建完成 3.配置pom.xml配置文件 <proje...

小海bug ⋅ 20分钟前 ⋅ 0

nginx.conf

=========================================================================== nginx.conf =========================================================================== user nobody; #......

A__17 ⋅ 23分钟前 ⋅ 0

645. Set Mismatch - LeetCode

Question 645. Set Mismatch Solution 思路: 遍历每个数字,然后将其应该出现的位置上的数字变为其相反数,这样如果我们再变为其相反数之前已经成负数了,说明该数字是重复数,将其将入结果r...

yysue ⋅ 36分钟前 ⋅ 0

Python这么强?红包杀手、消息撤回也可以无视,手机App辅助!

论述 标题也许有点不好理解,其实就是一款利用Python实现的可以监控微信APP内的红包与消息撤回的助手。不得不说,这确实是一款大家钟意的神器。 消息撤回是一件很让人恶心的事,毕竟人都是有...

Python燕大侠 ⋅ 52分钟前 ⋅ 0

压缩打包介绍、gzip压缩工具、bzip2压缩工具、xz压缩工具

压缩打包介绍 压缩的好处不仅能节省磁盘空间而且在传输的时候节省传输时间和网络带宽 windows系统下文件带有 .rar .zip .7z 后缀的就是压缩文件 linux系统下则是 .zip, .gz, .bz2, .xz, ...

黄昏残影 ⋅ 57分钟前 ⋅ 0

观察者模式

1.利用java原生类进行操作 package observer;import java.util.Observable;import java.util.Observer;/** * @author shadow * @Date 2016年8月12日下午7:29:31 * @Fun 观察目标 **/......

Cobbage ⋅ 59分钟前 ⋅ 0

Ubuntu打印服务器配置

参考:https://blog.csdn.net/gsls200808/article/details/50950586 https://blog.csdn.net/jiay2/article/details/80252369 https://wiki.gentoo.org/wiki/HPLIP 由于媳妇儿要大量打印资料,......

大熊猫 ⋅ 今天 ⋅ 0

面试的角度诠释Java工程师(二)

原文出处: locality 续言: 相信每一位简书的作者,都会有我这样的思考:怎么写好一篇文章?或者怎么写好一篇技术类的文章?我就先说说我的感悟吧,写文章其实和写程序是一样的。为什么我会...

颖伙虫 ⋅ 今天 ⋅ 0

github中SSH的Key

https://help.github.com/articles/connecting-to-github-with-ssh/ https://help.github.com/articles/testing-your-ssh-connection/ https://help.github.com/articles/adding-a-new-ssh-k......

whoisliang ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部