文档章节

[虚拟机VM][Ubuntu12.04]搭建Hadoop完全分布式环境(一)

javaer
 javaer
发布于 2017/07/22 17:26
字数 1564
阅读 32
收藏 2
点赞 0
评论 0

前言

大家都知道,Hadoop的部署方式可分为

  • 单机模式
  • 伪分布式
  • 完全分布式

本篇主要讲解的就是完全分布式。

搭建完全分布式的集群环境,需要多台的硬件设备,作为初学者,为了搭建集群去买多台电脑,多少有点不现实,所以这里我采用的是VM虚拟机,模拟搭建一个由三台机器组成的集群。

要想成功搭建hadoop的分布式环境,需要具备安装和操作VM虚拟机,使用Ubuntu系统的基本命令,Linux下安装Java以及Hadoop等相关技能。不过不会的话,也不用太担心,我会尽量把我的操作过程写得详细一点。

具体的搭建过程可以分为以下几个阶段:

  • 安装虚拟机
  • 安装和配置Ubuntu
  • 安装和配置Java环境
  • 安装和配置Hadoop

安装虚拟机

VMware Workstation 12 Pro 
链接:http://pan.baidu.com/s/1c2swwTU 密码:w0tv 
激活码百度一搜一大堆,这里就不写了,安装过程也比较简单,实在不会的,百度上也有图解的教程,请自行搜索。

安装和配置Ubuntu

Ubuntu 12.04 desktop 版,有图形界面 
链接:http://pan.baidu.com/s/1hs0vKwc 密码:i4mr

下面介绍如何在虚拟机中安装Ubuntu操作系统,我们需要安装三台虚拟机,分别命名为Hadoop Master(以下简称master),Hadoop Slave1(以下简称slave1)和Hadoop Slave2(以下简称slave2),以下以安装master为例

1、首先,打开安装好的虚拟机VMware Workstation 12 Pro(以下简称VM) 
这里写图片描述

2、依次点击 文件 → 新建虚拟机 
这里写图片描述

3、选择 自定义(高级)(C),点击 下一步 
这里写图片描述

4、硬件的兼容性选择,使用默认的设置,直接点击 下一步 
这里写图片描述

5、点击 浏览,选择下载好的Ubuntu的iso文件,点击 下一步 
这里写图片描述

6、填写安装信息,点击 下一步 
这里写图片描述

7、命名虚拟机,为了方便我们后续识别,安装第一个系统时,我们命名使用Hadoop Master(当我们安装第二个和第三个系统时分别使用Hadoop Slave1Hadoop Slave2,用于表示第一个是主服务器,第二个和第三个属于从服务器),点击浏览,选择一个本机的空间稍微大一点的目录用于存放我们安装系统的物理文件,点击 下一步 
这里写图片描述

8、处理器配置,根据自己机器的CPU情况来设置,比如我的是四核的,处理器数量就选择4,处理器的核心数量使用默认的1就行,点击 下一步 
这里写图片描述

9、设置内存,注意,必须是4MB的倍数,根据自己机器的内存来设置。比如,我的PC主机内存是8G,我为每台虚拟机设置1.5G(1536MB)的内存,主机剩余3.5G内存,这样主机不卡,虚拟机内存也足够使用。原则上说,给虚拟机设置的内存总和不要超过PC主机的物理内存就行,只不过设置太高,主机就会变慢。 
这里写图片描述

10、网络类型,这里选择使用桥接网络,因为我们需要主机与虚拟机与互联网,这三者都是通的,在安装的过程中,才不会遇到麻烦。 
这里写图片描述

11、I/O控制器和磁盘类型,都使用默认的选项即可,点击 下一步 
这里写图片描述 
这里写图片描述

12、选择磁盘,选择创建新的虚拟磁盘,点击 下一步 
这里写图片描述

13、指定磁盘容量,也就是设置虚拟机系统占用主机的物理空间的大小,使用默认值即可。 
这里写图片描述

14、指定磁盘文件,默认即可,点击 下一步 
这里写图片描述

15、点击 完成,等待虚拟机系统安装完成,安装过程中,请保持网络畅通。

16、同理,安装另外两台虚拟机Hadoop Slave1Hadoop Slave2,都安装好后,如下图 
这里写图片描述

17、分别设置每台虚拟机的固定IP,保证虚拟机与虚拟机与主机之间都能够相互ping通。具体操作这里就不赘述了,网上资料有很多,如果是公司电脑,让网络管理员帮忙设置下,如果是自己的机器,看下自己的路由器的IP分配情况 
这里写图片描述

18、我们要搭建一个由三台机器组成的集群,先配置虚拟机的hostshostname,以便虚拟机与虚拟机与主机之间不用使用IP,使用hostname就可以相互识别,很方便。

192.168.8.230    master
192.168.8.231    slave1
192.168.8.232    slave2

以master为例,通过命令:

hadoop@master:~$ sudo vi /etc/hostname

设置为master,另外两台虚拟机分别设置为slave1slave2 
这里写图片描述

hadoop@master:~$ sudo vi /etc/hosts

三台虚拟机都设置成以下的配置 
这里写图片描述

19、配置三台虚拟机之间的SSH无密码登录

安装sshd

sudo apt-get install openssh-server

首先通过命令生成公匙:

hadoop@master:~$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

这里写图片描述

将公匙添加到authorized_keys文件中:

hadoop@master:~$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这样,localhost就可以无密码登录了,看下效果:

hadoop@master:~$ ssh localhost
Welcome to Ubuntu 12.04 LTS (GNU/Linux 3.2.0-123-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

722 packages can be updated.
356 updates are security updates.

New release '14.04.5 LTS' available.
Run 'do-release-upgrade' to upgrade to it.

Last login: Tue Mar  7 14:40:15 2017 from slave1
hadoop@master:~$

同理,将公匙复制到slave1slave2authorized_keys文件中,就可以让master无密码登录slave1slave2了。

通过命令远程复制:

hadoop@master:~$ scp ~/.ssh/id_dsa.pub hadoop@slave1:~/
hadoop@master:~$ scp ~/.ssh/id_dsa.pub hadoop@slave2:~/

这里写图片描述

分别到slave1slave2机器上,添加master的公匙信息到authorized_keys文件中:

hadoop@slave1:~$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys
hadoop@slave2:~$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys

master上,测试一下效果: 
这里写图片描述

同理:

  • slave1生成公匙,然后复制到masterslave2authorized_keys文件中,这样slave1就可以无密码登录masterslave2
  • slave2生成公匙,然后复制到masterslave1authorized_keys文件中,这样slave2就可以无密码登录masterslave1

以上就是三台虚拟机的SSH无密码登录配置方法,大家可以根据实际的使用情况来设置,并不一定非要三台都支持双向的无密码登录。

本文转载自:http://blog.csdn.net/downing114/article/details/60956979

共有 人打赏支持
javaer
粉丝 20
博文 57
码字总数 7899
作品 0
太原
程序员
[虚拟机VM][Ubuntu12.04]搭建Hadoop完全分布式环境(三)(终篇)

接前两篇,这是最终篇,前面的准备工作都完成了之后,我们开始安装和部署 安装和配置Hadoop hadoop-2.2.0x64.tar.gz 链接:http://pan.baidu.com/s/1boSGvrp 密码:559o 集群中每台机器的配置...

javaer ⋅ 2017/07/25 ⋅ 0

(第2篇)一篇文章教你轻松安装hadoop

如果你看了我的上一篇文章,那此时你对hadoop已经有了一个大概的了解,那接下来这篇文章就教大家怎么安装hadoop环境,只要你用心,仔细的跟着文章中讲到的做,肯定能正确安装。 安装hadoop环...

I加加 ⋅ 2017/03/06 ⋅ 0

Hadoop环境搭建及相关组件的工作流程介绍

1前言 本篇博客主要是记录Hadoop环境配置包括单机伪分布环境搭建,分布式环境搭建和Hadoop相关组件的工作流程介绍,包括HDFS读写流程,YARN的资源调度流程,MapReduce工作流程。 建议先理解各...

u014732537 ⋅ 05/24 ⋅ 0

(第2篇)一篇文章教你轻松安装hadoop

点击链接 https://my.oschina.net/ijj/blog 关注我的博客。学习更多hadoop知识。 如果你看了我的上一篇文章,那此时你对hadoop已经有了一个大概的了解,那接下来这篇文章就教大家怎么安装had...

隐姓埋名啊 ⋅ 2017/03/17 ⋅ 0

【Hadoop】Hadoop 2.x 完全分布式环境搭建

1、前期准备:克隆 克隆前需要关闭所有正在运行的服务进程,然后关闭系统。克隆需要选择完整克隆。克隆出两台虚拟机,共三台。 克隆后需要修改配置: (1)/etc/sysconfig/network中的HOSTN...

gongxifacai_believe ⋅ 04/22 ⋅ 0

shell 命令操作hdfs

简介 本编文章主要讲述shell 命令操作hdfs 主要讲述几个简单常用的shell 命令 如 ls get mkdir rm put 前提需要安装hdfs 作者用的是虚拟机搭建的伪分布式环境,如果没有搭建环境的可以参考这...

u012957549 ⋅ 2017/12/13 ⋅ 0

Hadoop+Zookeeper+Hbase分布式环境配置备忘

虚拟机环境: OS IP Host Name Java CentOS 6.6 192.168.56.101 master vm1-centos java-1.6.0-openjdk.x86_64 CentOS 6.6 192.168.56.102 slave1 vm2-centos java-1.6.0-openjdk.x86_64 Cen......

F风向标F ⋅ 2015/10/18 ⋅ 0

hadoop文件路径问题

使用ubuntu虚拟机进行数据处理,搭好hadoop完全分布式环境之后,将要处理的2个文件上传到hadoop集群中,不是有eclipse,直接使用shell脚本去调用class文件进行处理数据,其中有2个fromcsv.c...

颠覆 ⋅ 2014/12/02 ⋅ 0

大数据Hadoop需要了解哪些内容?

一、Hadoop环境搭建 1. Hadoop生态环境介绍 2. Hadoop云计算中的位置和关系 3. 国内外Hadoop应用案例介绍 4. Hadoop概念、版本、历史 5. Hadoop核心组成介绍及hdfs、mapreduce体系结构 6. H...

mo默瑶 ⋅ 05/05 ⋅ 0

【Spark亚太研究院-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount(2)

执行文件拷贝操作 拷贝后的“input”文件夹的内容如下所示: 和我们的hadoop安装目录下的“conf”文件的内容是一样的。 现在,在我们刚刚构建的伪分布式模式下运行wordcount程序: 运行完成后...

Spark亚太研究院 ⋅ 2014/08/27 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Sqoop

1.Sqoop: 《=》 SQL to Hadoop 背景 1)场景:数据在RDBMS中,我们如何使用Hive或者Hadoop来进行数据分析呢? 1) RDBMS ==> Hadoop(广义) 2) Hadoop ==> RDBMS 2)原来可以通过MapReduce I...

GordonNemo ⋅ 10分钟前 ⋅ 0

全量构建和增量构建的区别

1.全量构建每次更新时都需要更新整个数据集,增量构建只对需要更新的时间范围进行更新,所以计算量会较小。 2.全量构建查询时不需要合并不同Segment,增量构建查询时需要合并不同Segment的结...

无精疯 ⋅ 20分钟前 ⋅ 0

如何将S/4HANA系统存储的图片文件用Java程序保存到本地

我在S/4HANA的事务码MM02里为Material维护图片文件作为附件: 通过如下简单的ABAP代码即可将图片文件的二进制内容读取出来: REPORT zgos_api.DATA ls_appl_object TYPE gos_s_obj.DA...

JerryWang_SAP ⋅ 38分钟前 ⋅ 0

云计算的选择悖论如何对待?

导读 人们都希望在工作和生活中有所选择。但心理学家的调查研究表明,在多种选项中进行选择并不一定会使人们更快乐,甚至不会产生更好的决策。心理学家Barry Schwartz称之为“选择悖论”。云...

问题终结者 ⋅ 46分钟前 ⋅ 0

637. Average of Levels in Binary Tree - LeetCode

Question 637. Average of Levels in Binary Tree Solution 思路:定义一个map,层数作为key,value保存每层的元素个数和所有元素的和,遍历这个树,把map里面填值,遍历结束后,再遍历这个map,把每...

yysue ⋅ 今天 ⋅ 0

IDEA配置和使用

版本控制 svn IDEA版本控制工具不能使用 VCS-->Enable Version Control Integration File-->Settings-->Plugins 搜索Subversion,勾选SVN和Git插件 删除.idea文件夹重新生成项目 安装SVN客户......

bithup ⋅ 今天 ⋅ 0

PE格式第三讲扩展,VA,RVA,FA的概念

作者:IBinary 出处:http://www.cnblogs.com/iBinary/ 版权所有,欢迎保留原文链接进行转载:) 一丶VA概念 VA (virtual Address) 虚拟地址的意思 ,比如随便打开一个PE,找下它的虚拟地址 这边...

simpower ⋅ 今天 ⋅ 0

180623-SpringBoot之logback配置文件

SpringBoot配置logback 项目的日志配置属于比较常见的case了,之前接触和使用的都是Spring结合xml的方式,引入几个依赖,然后写个 logback.xml 配置文件即可,那么在SpringBoot中可以怎么做?...

小灰灰Blog ⋅ 今天 ⋅ 0

冒泡排序

原理:比较两个相邻的元素,将值大的元素交换至右端。 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面。即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后。然后比较第...

人觉非常君 ⋅ 今天 ⋅ 0

Vagrant setup

安装软件 brew cask install virtualboxbrew cask install vagrant 创建project mkdir -p mst/vmcd mst/vmvagrant init hashicorp/precise64vagrant up hashicorp/precise64是一个box......

遥借东风 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部