文档章节

Hadoop上路_02-hadoop介绍和环境准备

vigiles
 vigiles
发布于 2013/05/20 20:23
字数 952
阅读 745
收藏 3

Hadoop介绍:

1. Hadoop项目组成:

        

        1hadoop Common :

                hadoop的核心。包括文件系统、远程调用RPC的序列化函数。

        2HDSF : 

                高吞吐量分布式文件系统。是GFS的开源实现。通过hadoop fs命令来读取。

        3MapReduce : 

                大型分布式合并/计算数据处理模型。Google MapReduce的开源实现。

        4)其它

                Cassandra : 由Facebook开发分布式数据仓库。apache已经将Cassandra应用到各种云计算系统中。
                Hbase : 结构化分部式数据库。BigTable的开源实现。
                Hive : 提供摘要和查询功能的数据仓库。

2. Hadoop系统构成:

        每个节点都是一个Java进程。 

          

        namenode:主控节点  

                在一个hadoop系统中只有一个namenode。一旦主控服务器宕机,整个系统将无法运行。
                namenode是整个hadoop系统的守护进程。 
                负责记录文件是如何分割成数据块。
                管理数据块分别存储到哪些数据节点上。
                对内存进行集中管理。 

        secondarynamenode:辅助节点  

                监控HDFS状态的辅助后台程序。如保存namenode的快照。

        jobtracker:下发任务(拆分数据)  

                用户连接应用程序和hadoop。每一个hadoop集群中只一个 JobTracker,一般它运行在Master节点上。

        tacktracker:执行任务(接收数据)  

                负责与DataNode进行结合。

        datanode:数据存储  

                集群中的每个从服务器都运行一个DataNode后台程序,负责将HDFS数据块写到本地的文件系统。  

一.配置VirtualBox虚拟机和Ubuntu

本例系统为Ubuntu10.04LTS。初始用户hm,主机名hm-ubuntu。建议分配内存至少1G,安装略。

1.为虚拟机安装增强功能:

        

          

2.Ubuntu初始化root用户:

        
 

3.修改用户(如果需要):

          

1)修改用户密码:
sudo passwd 用户名

          

2)在当前用户下修改用户名:
sudo chfn -f 新名字 原名字

        

3)注销当前用户,使用root登陆:

              

usermod -l 新名字 -d /home/新名字 -m 原名字

        

4)注销root用户,使用新用户名登陆:

            

5)根据需要修改hostnamehosts。  

6)注意:用户组没有改变,似乎不太要紧。  

        因为系统是复制ha得来,用户组仍为ha。对后续操作没有不良影响。    

4.配置hostnamehosts

1HOSTNAME

hm@hm-ubuntu:~$ sudo gedit /etc/hostname

          

2HOSTS
hm@hm-ubuntu:~$ sudo gedit /etc/hosts

          

3)重启系统。


5.安装OpenSSH

openssh-client_5.3p1-3ubuntu3_i386.deb 重命名为openssh-client.deb  
openssh-server_5.3p1-3ubuntu3_i386.deb 重命名为openssh-server.deb   
ssh_5.3p1-3ubuntu3_all.deb             重命名为ssh.deb

1)安装openssh-client

sudo dpkg -i openssh-client.deb

         

2)安装openssh-server

sudo dpkg -i openssh-server.deb

         

3)安装ssh-all

sudo dpkg -i ssh.deb

         

4)修改OpenSSH配置(跳过):

            

5)创建密钥的空密码文件:

当要求“Enter passphrase (empty for no passphrase) :”以及再次输入时直接回车

          

6)配置.ssh目录权限(跳过):

sudo chmod 700 -R .ssh

7)创建自动验证密码文件:

         

使用cat命令: authorized_keys 务必和ssh_config中的配置完全一致!  

sudo cat id_rsa.pub >> authorized_keys

          

使用cp命令: authorized_keys 

sudo cp id_rsa.pub authorized_keys

          

8设置authorized_keys权限(跳过):

chmod 600 authorized_keys

9)测试ssh无密码登陆:

        
        

6.安装JDK

jdk-6u24-linux-i586.bin。务必与hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同,或者后期根据此版本jdk制作插件。  

1)安装bin文件:

(1)进入安装目录:

        

(2)为当前用户赋予安装此文件的权限,执行安装:

         
        ... ...  
        

2)配置jdk到环境变量:

          

3)重载配置文件,使之立即生效:

        

4测试jdk:

          

7.安装Hadoop

hadoop-1.1.2-bin.tar.gz。后期hadoop-eclipse-plugin-*.jar插件须符合此版本。  

http://mirrors.cnnic.cn/apache/hadoop/common/     

1)解压文件:

         
        ... ...  
          

2)配置hadoop到环境变量:

export JAVA_HOME=/usr/jdk1.6.0_24
exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
export PATH=/usr/hadoop-1.1.2/bin:$PATH

         

3)重载系统配置文件,使之立即生效:

        

-end 

© 著作权归作者所有

vigiles

vigiles

粉丝 99
博文 84
码字总数 82564
作品 0
昌平
程序员
私信 提问
Cloudera Apache Hadoop 管理员培训(上海站)

Cloudera Apache Hadoop 管理员培训将在上海举办两次,分布于2017-02-27至2017-03-02;2017-03-23至2017-03-26召开,可根据自己的时间选择参加! 因楼主不能及时查看报名信息,还望各位参会者...

活动家
2017/02/18
50
1
Cloudera Apache Hadoop 管理员培训 上海站

Cloudera Apache Hadoop 管理员培训将在上海举办两次,分布于2017-02-27至2017-03-02;2017-03-23至2017-03-26召开,可根据自己的时间选择参加! 因楼主不能及时查看报名信息,还望各位参会者...

活动家
2017/02/18
37
1
Hadoop 2.6.4分布式集群环境搭建

一、软件准备 VMware-Fusion-8.0.0-2985594.dmg ubuntu-14.04.4-desktop-amd64.iso 二、集群机器准备 在VMware Fusion中安装三台虚拟机,如下: 在安装三台虚拟机的时候,创建专门用于 Hado...

JackieYeah
2016/04/13
10.7K
4
HADOOP(3.0.0)在CENTOS7(RED HAT 7)下完全分布式环境搭建

一、环境简介 本教程服务器主机都是CentOS 7(Red Hat 7 亦可),集群结点分布情况如下表: 二、Linux 环境准备 01. 创建hadoop用户 02. HOSTNAME 处理 01) 修改服务器的 hostname,使用命令 ...

HICKEYS
2018/01/02
266
0
Hadoop之yarn和mapreduce

准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回......

泡海椒
2015/12/01
114
0

没有更多内容

加载失败,请刷新页面

加载更多

Jenkins admin 密码忘记解决

一、admin密码未更改情况 1.进入\Jenkins\secrets目录,打开initialAdminPassword文件,复制密码; find / -name initialAdminPassword [root@jenkins jenkins]# cat /var/lib/jenkins/secre......

SuShine
37分钟前
5
0
LiveData原理分析

LiveData原理分析 1 LiveData简介 大部分Android应用会从网络或SQLite数据库存取数据,并根据数据更新界面。为了避免ANR,主线程中不能存取数据。而后台线程中无法更新界面。通常的做法是让后...

tommwq
51分钟前
4
0
Java描述设计模式(20):命令模式

本文源码:GitHub·点这里 || GitEE·点这里 一、生活场景 1、场景描述 智能电脑的品牌越来越多,由此诞生了一款电脑控制的APP,万能遥控器,用户在使用遥控器的时候,可以切换为自家电视的品...

知了一笑
52分钟前
3
0
java---网络编程(上)

1.1网络编程 网络编程指的是编写运行在多个设备计算机的程序,这些计算机通过网络连接起来 java.net包中提供了两种常见的网络协议的支持: TCP:TCP是传输控制层协议的缩写,它保障了两个应用...

Firefly-
56分钟前
15
0
城市搜索插件 city-query

  今天,给大家介绍一个比较简单有用的插件city-query,大家可以从coding上面下载下来。 git clone https://gitee.com/jflsy/city-query.git   引用插件时只需要src文件下的内容就可以了...

芳缘
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部