文档章节

Hadoop安装-单节点/伪分布(2.7.3)

天呀鲁哇
 天呀鲁哇
发布于 2017/07/25 09:04
字数 1202
阅读 41
收藏 0

1,下载Hadoop

     目前在Ubuntu的软件库里面  没有发现Hadoop的压缩包,没猜错Hadoop不是可执行文件 只是一个压缩包吧!所以我们只能自己到官网下载(http://hadoop.apache.org/releases.html);

      在Apache社区中,下载软件的时候常看到source类型和binary类型的文件包,第一种其实就是源码,您可以根据自己的环境进行编译 生成适合自己运行环境的,第二种是我们课直接使用的;

        cd  /usr   切换到usr目录下

        sudo mkdir  hadoop  创建hadoop文件夹

        sudo cd hadoop 进入hadoop文件夹

        sudo wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3

/hadoop-2.7.3.tar.gz                           

                   (wget是从网络上直接下载文件的命令,其支持http  ftp 等协议,默认下载文件到当前目录;)

        由于我使用的是虚拟机,下载速度很慢,所以我直接使用本地下载,然后上传到目录下;

       apt-get install lrzsz   安装lrzsz脚本,此脚本支持文件传输,类似于FileZ;

                                                                    (http://freecode.com/projects/lrzsz/)

         

        解压缩文件:

           cd  /usr/hadoop

          sudo tar -xzf hadoop-2.7.3.tar.gz     tar和gz都是linux下面的压缩算法文件的后缀;通常采用tar命令来解压文件; tar 的参数选项有主选项  和选择选项,主要选项例如上面的 -x   是解压的意思  还有 -c是压缩的意思;    f是制定文件名    f选项一定放在最后     z是代码gz的压缩解密;

 

2,hadoop目录结构介绍

     

        为了便于观察我在window下面解压了Hadoop压缩文件,得出的出如图目录;

        bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。

      etc:Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

        include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。

         lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

        libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

         sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。

         share:Hadoop各个模块编译后的jar包所在的目录。

 

3,配置单点Hadoop

       》基础配置:  配置Hadoop运行的jdk;

               sudo vi  ..../etc/hadoop/hadoop-env.sh    ...代表hadoop解压存放的目录

               修改 export JAVA_HOME = jdk安装目录;

      》启动

                mkdir .../input   创建一个输入参数文件加

                cp .../etc/hadoop/*.xml      把hadoop默认的配置文件都copy到input里面 

                /usr/hadoop/hadoop-2.7.3/bin/hadoop jar .../share/hadoop/mapreduce/

hadoop-mapreduce-examples-*.jar grep /usr/hadoop/input /usr/hadoop/output 'dfs[a-z.]+'

 

4,伪分布式Hadoop

        》基础配置:

                ssh免密码登陆     如果想要ssh面密码登陆,必须使用 ssh的keygen生成密匙对;

                ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  ssh-keygen是ssh算法工具, -t指定算法,-P 是密码 -f是文件名;

                cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys   把公钥追加到认证文件中;

                 chmod  600 ~/.ssh/authorized_keys  设置认证文件只有所有者可以读写操作;   

                因为在免密码登陆的时候涉及到生产的密匙对的权限问题即密匙文件必须是只能用户所有者操能操作,所以我们必须知道文件权限;

                (注: Linux中权限管理  有三个要素  一个要素是操作者   一个是操作  一个是权限;操作者在Linux中按照用户  用户组来管理;操作主要有 读(R) 写(W) 执行(X)三种,操作可以用数字转换  r=4 w=2 x=1;权限则是用来衡量操作者对文件或文件夹具有哪些操作要素;权限中我们同通过 所有者权限  所在组权限和其他组权限来管理   其中我们可以通过chomn来改变文件所有者    通过chgrp 改变文件所在组   通过chmod来改变用户权限。  我们在ls -a的时候可以看见文件的权限    -rw-r-----  第一个-代表这个是文件   rw- 代表文件所有着具有读写权限   r-- 代表本组人员具有读权限  ---代表其他用户组没有权限对此文件操作)

 

 

 

 

 

        

        

                

        

         

    

 

© 著作权归作者所有

共有 人打赏支持
天呀鲁哇
粉丝 8
博文 98
码字总数 42007
作品 0
长宁
程序员
大数据Hadoop伪分布式集群搭建

安装hadoop ------------------- 1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~ $>mkdir downloads $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ......

sod5211314
04/22
0
0
hadoop单机模式和伪分布式,全分布式的区别

单机模式(standalone) 单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时,Hadoop无法了解硬...

Anuge
2017/10/29
0
0
Hadoop单机模式部署

一、Hadoop部署模式 单机模式:默认情况下运行为一个单独机器上的独立Java进程,主要用于调试环境 伪分布模式:在单个机器上模拟成分布式多节点环境,每一个Hadoop守护进程都作为一个独立的J...

结束的伤感
2016/04/20
0
0
Hadoop伪分布搭建

1.安装java https://my.oschina.net/u/3132676/blog/804599 2.下载hadoop压缩包 http://hadoop.apache.org/#Download+Hadoop 我下的是2.7.3 3.创建hadoop账户 sudo useradd hadoop 设置密码:......

D语无伦次
2016/12/19
12
0
Hadoop单点部署与案例开发(微博用户数据分析)

一、环境搭建 1、Hadoop运行环境搭建 1.1 安装虚拟机 (1)下载并安装VMware虚拟机软件。 (2)创建虚拟机,实验环境虚拟机配置如下图所示。 (3)安装Ubuntu系统,安装结果如下图所示。 1....

天夣
2017/06/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

分布式框架spring-session实现session一致性使用问题

前言:项目中使用到spring-session来缓存用户信息,保证服务之间session一致性,但是获取session信息为什么不能再服务层获取? 一、spring-session实现session一致性方式 用户每一次请求都会...

WALK_MAN
20分钟前
1
0
C++ yield()与sleep_for()

C++11 标准库提供了yield()和sleep_for()两个方法。 (1)std::this_thread::yield(): 线程调用该方法时,主动让出CPU,并且不参与CPU的本次调度,从而让其他线程有机会运行。在后续的调度周...

yepanl
28分钟前
0
0
Java并发编程实战(chapter_3)(线程池ThreadPoolExecutor源码分析)

这个系列一直没再写,很多原因,中间经历了换工作,熟悉项目,熟悉新团队等等一系列的事情。并发课题对于Java来说是一个又重要又难的一大块,除非气定神闲、精力满满,否则我本身是不敢随便写...

心中的理想乡
38分钟前
16
0
shell学习之获取用户的输入命令read

在运行脚本的时候,命令行参数是可以传入参数,还有就是在脚本运行过程中需要用户输入参数,比如你想要在脚本运行时问个问题,并等待运行脚本的人来回答。bash shell为此提 供了read命令。 ...

woshixin
今天
1
0
区块链技术中的那些能商用的企业级应用

WEPOWER是一家立陶宛初创企业,旨在改变可再生电力项目的付费方式。WePower公司创始人Nick Martyniuk表示,政府统一收购价的存在推动了全球风能与太阳能市场的发展。因此,他的公司希望帮助那...

问题终结者
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部