文档章节

Hadoop2.4.1伪分布式配置详解

忙碌的键盘
 忙碌的键盘
发布于 2014/12/09 19:36
字数 1051
阅读 66
收藏 0
点赞 0
评论 0

实验环境:

    VMware Workstation 10.0   

    CentOS 6.5    

    Hadoop 2.4.1 

    Jdk1.7.0

一. Linux系统环境准备    

   用WindSCP等软件,把JDK和Hadoop的安装包上传到CentOS虚拟机中。

   用户设置

     如果用普通用户进行以下操作,先把普通用户添加到/etc/sudoers文件中,以便能执行sudo命令。

切换到root
$su -
添加普通用户到sudoers
#vim /etc/sudoers
在文件的99行添加 hadoop ALL=(ALL) ALL
添加普通用户hadoop

     配置IP

    虚拟机使用NAT模式。

用图形界面或直接修改/etc/sysconfig/network-scripts/ifcfg-eth0文件
IP:192.168.18.101
MASK:255.255.255.0
ROUTE:192.168.18.1

     修改主机名

    非必须步骤,为了以后的方便,还是配置的好。

修改主机名为hadoop001,重启生效
[root@localhost ~]# vim /etc/sysconfig/network
   NETWORKING=yes
   HOSTNAME=hadoop001
查看主机名
[root@localhost ~]# hostname

      配置主机名和IP的映射

为了测试方便,也可以再配置宿主机windows的映射 C:\Windows\System32\drivers\etc\hosts
[root@localhost ~]# vim /etc/hosts
添加: 192.168.18.101 hadoop001

     关闭防火墙

        不关闭防火墙,其他主机不能访问http等服务。当然,如果你会,自己配置防火墙更好。

关闭防火墙
[root@localhost ~]# service iptables stop
查看防火墙状态
[root@localhost ~]# service iptables status
iptables: Firewall is not running.
设置开机不启动防火墙
[root@localhost ~]# chkconfig iptables off

    配置完成,重启CentOS

#reboot

二. 安装JDK和Hadoop

解压JDK和Hadoop的安装包*.tar.gz.

配置环境变量

重新编译环境变量配置文件
#source /etc/profile
测试命令
$java -version
$hadoop

三.Hadoop配置

1. etc/hadoop/hadoop-env.sh 

修改 HADOOP_HOME/etc/hadoop/hadoop-env.sh 

把27行,${JAVA_HOME}换成jdk的绝对路径。

可能是hadoop的shell脚本问题,这里经常获取JAVA_HOME失败,所以替换成jdk的绝对路径。

2. etc/hadoop/core-site.xml

<configuration>
     <property>
         <name>fs.defaultFS</name>
         <value>hdfs://hadoop001:9000</value>
         <discription> 
            hdfs://hostname|IP:port
             文件系统的名字,默认端口号为8020(见NameNode源码),
        </discription>
     </property>
    <property>
          <name>hadoop.tmp.dir</name>
          <value>/home/hadoop/apps/hadoop-2.4.1/tmp</value>
          <discription>
               指定name table(fsimage)在本地系统的存放位置,
               如果value是以逗号分隔的多个目录,则会在每个目录中保存一份,作为冗余备份。
               注意:如果最前面不加/ 就是相对HADOOP_HOME的路径
          </discription>
     </property>
</configuration>

3. etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
        <description>
            block副本的数量(副本因子)
            在搭建伪分布式时,值为1就行,覆盖hdfs-default.xml中配置的默认值3。
         </description>
    </property>
<configuration>

4. etc/hadoop/mapred-site.xml

 修改mapred-site.xml.template文件名为mapred-site.xml

<configuration>
     <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
     </property>
     <description>
        指定MapReduce运行在Yarn上
     </description>
</configuration>

5. etc/hadoop/yarn-site.xml

</configuration>
    <!-- 指定YARN的老大(ResourceManager)的地址 -->
    <property>
    	<name>yarn.resourcemanager.hostname</name>
    	<value>hadoop001</value>
    </property>
    	<!-- reducer获取数据的方式 -->
    <property>
    	<name>yarn.nodemanager.aux-services</name>
    	<value>mapreduce_shuffle</value>
    </property>
</configuration>

四. 启动Hadoop

SSH免密码登录

设置无密码登录NameNode等节点。因为我们是伪分布式实验环境,所以启动或关闭HDFS和Yarn时每次输入密码不方便。

测试一下,是否可以通过SSH免密码的登录

  $ ssh localhost

If you cannot ssh to localhost without a passphrase, execute the following commands:

  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  #然后再用ssh localhost测试一下,如果不行,就改一下秘钥的权限。
  #chmod 600 .ssh/*

格式化HDFS

    为什么需要格式化?

    和使用新买的硬盘时,也需要格式一下一个道理,根据选择的文件系统类型对磁盘进行配置。

    windows下选择NTFS文件系统,这个是HDFS文件系统,只不过HDFS的是一个逻辑磁盘

hfds namenode -format  
或hadoop namenode -form  这是hadoop1.x中的命令,已经过时。

格式化成功后,Hadoop会在core-site.xml文件中配置的hadoop.tmp.dir目录下自动创建dfs/name目录。

格式化信息:

查看初始状态下dfs/name下只有fsimage文件。

    启动Hadoop服务

hadoop 1.x通过start-all.sh启动hdfs和MapReduce
$ bin/start-all.sh
hadoop2.x
启动hdfs服务
$start-dfs.sh
启动yarn
$start-yarn.sh

    验证成功启动

  1) 用JPS查看java进程

2)Browse the web interface for the NameNode and theMapReduce

    NameNode Web UI- http://localhost:50070/

    MapReduce Web UI - http://localhost:8088/




© 著作权归作者所有

共有 人打赏支持
忙碌的键盘
粉丝 22
博文 23
码字总数 28344
作品 0
朝阳
程序员
Centos下hadoop2.4.1伪分布式搭建

1.环境准备 系统:Centos7 JDK:1.7 hadoop:2.4.1 IP:192.168.31.84 2.安装hadoop2.4.1 下载hadoop2.4.1安装包hadoop-2.4.1.tar.gz,上传到虚拟机,修改$HADOOP_HOME/etc/hadoop下5个配置文...

wang704987562 ⋅ 2017/06/13 ⋅ 0

Spark集群搭建——Hadoop2.4.1集群搭建

安装Java 参见Hadoop 1.2.1 伪分布式模式安装中Java安装部分 配置SSH免密码验证 我们还是以spark-master, ubuntu-worker, spark-worker1三台机器为例。 参见博客Spark集群搭建——SSH免密码验...

Jackson_Mu ⋅ 2015/03/16 ⋅ 4

Hadoop安装详解

一、安装须知 要安装hadoop必须要安装虚拟化软件(VMware或VirtualBox) 网上下载操作系统(ubuntu或centos) CentOS:http://isoredirect.centos.org/centos/7/isos/x8664/CentOS-7-x8664-DV...

刺風 ⋅ 2017/11/27 ⋅ 0

Spark1.2.1集群环境搭建——Standalone模式

机器准备 笔者有三台机器,左侧栏为ip,右侧为hostname,三台机器都有一个名为spark的用户。 192.168.248.150 spark-master192.168.248.153 ubuntu-worker192.168.248.155 spark-worker1 根据...

Jackson_Mu ⋅ 2015/03/16 ⋅ 13

分布式搜索Solrcloud启动配置详解

Solrcloud是Apache关于Solr分布式搜索的一个解决方案.前面我介绍过Katta,测试发现了很多问题,我还是不敢在公司的项目上使用,毕竟公司都是商业性质的,业务不是那么简单,压力也不小.刚好最近的...

震秦 ⋅ 2012/10/25 ⋅ 13

Hadoop集群安装部署详解

本文主要介绍Hadoop的一些基本信息及完全分布式安装,每一步都是笔者亲自操作所记录下来的,现分享出来希望能帮助到正准备研究Hadoop的朋友 Hadoop介绍 Hadoop由HDFS、MapReduce、Hbase、Hiv...

阿郎_ ⋅ 2017/04/04 ⋅ 0

超人学院大数据高薪就业班第七期精彩课程抢先看

超人学院大数据高薪就业班第七期火爆招生中,新的一期,内容部不断增加,还有更多优惠呦,精彩内容抢先看: 1、Linux课程:如果你没有使用过Linux,别担心,本内容让你轻松入门,讲解Linux基...

超人学院 ⋅ 2015/04/30 ⋅ 0

Hadoop2.4.1分布式安装

1、做好下文中的所有配置:Hadoop1.2.1分布式安装-1-准备篇。 2、Hadoop2.x的发行版中有个小问题:libhadoop.so.1.0.0在64位OS中存在问题,因为它是32位的,在64位OS中hadoop启动时会报一个W...

悟空太多啦 ⋅ 2014/07/30 ⋅ 0

ZooKeeper伪分布式集群安装

获取ZooKeeper安装包 下载地址:http://apache.dataguru.cn/zookeeper 选择一个稳定版本进行下载,我这里下载的是zookeeper-3.4.6版本。 ZooKeeper伪分布式集群安装 伪分布式集群:在一台Ser...

蔡佳娃 ⋅ 2015/03/08 ⋅ 0

ZooKeeper的伪分布式集群搭建以及真分布式集群搭建

zk集群的一些基本概念 zookeeper集群搭建: zk集群,主从节点,心跳机制(选举模式) 配置数据文件 myid 1/2/3 对应 server.1/2/3 通过 zkCli.sh -server [ip]:[port] 命令检测集群是否配置成...

ZeroOne01 ⋅ 04/24 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

从 Confluence 5.3 及其早期版本中恢复空间

如果你需要从 Confluence 5.3 及其早期版本中的导出文件恢复到晚于 Confluence 5.3 的 Confluence 中的话。你可以使用临时的 Confluence 空间安装,然后将这个 Confluence 安装实例升级到你现...

honeymose ⋅ 今天 ⋅ 0

Java8新增的DateTimeFormatter与SimpleDateFormat的区别

两者最大的区别是,Java8的DateTimeFormatter也是线程安全的,而SimpleDateFormat并不是线程安全。 在并发环境下使用SimpleDateFormat 为了能够在多线程环境下使用SimpleDateFormat,有这三种...

人觉非常君 ⋅ 今天 ⋅ 0

多线程如何控制执行顺序

线程的生命周期说明: 当线程被创建并启动以后,它既不是一启动就进入了执行状态,也不是一直处于执行状态,在线程的生命周期中,它要经过新建(New)、就绪(Runnable)、运行(Running)、...

MarinJ_Shao ⋅ 今天 ⋅ 0

用ZBLOG2.3博客写读书笔记网站能创造今日头条的辉煌吗?

最近两年,著名的自媒体网站今日头条可以说是火得一塌糊涂,虽然从目前来看也遇到了一点瓶颈,毕竟发展到了一定的规模,继续增长就更加难了,但如今的今日头条规模和流量已经非常大了。 我们...

原创小博客 ⋅ 今天 ⋅ 0

MyBatis四大核心概念

本文讲解 MyBatis 四大核心概念(SqlSessionFactoryBuilder、SqlSessionFactory、SqlSession、Mapper)。 MyBatis 作为互联网数据库映射工具界的“上古神器”,训有四大“神兽”,谓之:Sql...

waylau ⋅ 今天 ⋅ 0

以太坊java开发包web3j简介

web3j(org.web3j)是Java版本的以太坊JSON RPC接口协议封装实现,如果需要将你的Java应用或安卓应用接入以太坊,或者希望用java开发一个钱包应用,那么用web3j就对了。 web3j的功能相当完整...

汇智网教程 ⋅ 今天 ⋅ 0

2个线程交替打印100以内的数字

重点提示: 线程的本质上只是一个壳子,真正的逻辑其实在“竞态条件”中。 举个例子,比如本题中的打印,那么在竞态条件中,我只需要一个方法即可; 假如我的需求是2个线程,一个+1,一个-1,...

Germmy ⋅ 今天 ⋅ 0

Django第一期

安装Django 去https://www.djangoproject.com/download/ 下载最新版的Django,然后解压放到Anaconda\Lib\site-packages目录下,然后cmd进入此目录,输入安装命令: python setup.py install ...

大不了敲一辈子代码 ⋅ 今天 ⋅ 0

Springboot2 之 Spring Data Redis 实现消息队列——发布/订阅模式

一般来说,消息队列有两种场景,一种是发布者订阅者模式,一种是生产者消费者模式,这里利用redis消息“发布/订阅”来简单实现订阅者模式。 实现之前先过过 redis 发布订阅的一些基础概念和操...

Simonton ⋅ 今天 ⋅ 0

error:Could not find gradle

一.更新Android Studio后打开Project,报如下错误: Error: Could not find com.android.tools.build:gradle:2.2.1. Searched in the following locations: file:/D:/software/android/andro......

Yao--靠自己 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部