文档章节

Hadoop安装-单节点/伪分布(2.7.3)

天呀鲁哇
 天呀鲁哇
发布于 2017/07/25 09:04
字数 1202
阅读 29
收藏 0
点赞 0
评论 0

1,下载Hadoop

     目前在Ubuntu的软件库里面  没有发现Hadoop的压缩包,没猜错Hadoop不是可执行文件 只是一个压缩包吧!所以我们只能自己到官网下载(http://hadoop.apache.org/releases.html);

      在Apache社区中,下载软件的时候常看到source类型和binary类型的文件包,第一种其实就是源码,您可以根据自己的环境进行编译 生成适合自己运行环境的,第二种是我们课直接使用的;

        cd  /usr   切换到usr目录下

        sudo mkdir  hadoop  创建hadoop文件夹

        sudo cd hadoop 进入hadoop文件夹

        sudo wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3

/hadoop-2.7.3.tar.gz                           

                   (wget是从网络上直接下载文件的命令,其支持http  ftp 等协议,默认下载文件到当前目录;)

        由于我使用的是虚拟机,下载速度很慢,所以我直接使用本地下载,然后上传到目录下;

       apt-get install lrzsz   安装lrzsz脚本,此脚本支持文件传输,类似于FileZ;

                                                                    (http://freecode.com/projects/lrzsz/)

         

        解压缩文件:

           cd  /usr/hadoop

          sudo tar -xzf hadoop-2.7.3.tar.gz     tar和gz都是linux下面的压缩算法文件的后缀;通常采用tar命令来解压文件; tar 的参数选项有主选项  和选择选项,主要选项例如上面的 -x   是解压的意思  还有 -c是压缩的意思;    f是制定文件名    f选项一定放在最后     z是代码gz的压缩解密;

 

2,hadoop目录结构介绍

     

        为了便于观察我在window下面解压了Hadoop压缩文件,得出的出如图目录;

        bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。

      etc:Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

        include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。

         lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

        libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

         sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。

         share:Hadoop各个模块编译后的jar包所在的目录。

 

3,配置单点Hadoop

       》基础配置:  配置Hadoop运行的jdk;

               sudo vi  ..../etc/hadoop/hadoop-env.sh    ...代表hadoop解压存放的目录

               修改 export JAVA_HOME = jdk安装目录;

      》启动

                mkdir .../input   创建一个输入参数文件加

                cp .../etc/hadoop/*.xml      把hadoop默认的配置文件都copy到input里面 

                /usr/hadoop/hadoop-2.7.3/bin/hadoop jar .../share/hadoop/mapreduce/

hadoop-mapreduce-examples-*.jar grep /usr/hadoop/input /usr/hadoop/output 'dfs[a-z.]+'

 

4,伪分布式Hadoop

        》基础配置:

                ssh免密码登陆     如果想要ssh面密码登陆,必须使用 ssh的keygen生成密匙对;

                ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  ssh-keygen是ssh算法工具, -t指定算法,-P 是密码 -f是文件名;

                cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys   把公钥追加到认证文件中;

                 chmod  600 ~/.ssh/authorized_keys  设置认证文件只有所有者可以读写操作;   

                因为在免密码登陆的时候涉及到生产的密匙对的权限问题即密匙文件必须是只能用户所有者操能操作,所以我们必须知道文件权限;

                (注: Linux中权限管理  有三个要素  一个要素是操作者   一个是操作  一个是权限;操作者在Linux中按照用户  用户组来管理;操作主要有 读(R) 写(W) 执行(X)三种,操作可以用数字转换  r=4 w=2 x=1;权限则是用来衡量操作者对文件或文件夹具有哪些操作要素;权限中我们同通过 所有者权限  所在组权限和其他组权限来管理   其中我们可以通过chomn来改变文件所有者    通过chgrp 改变文件所在组   通过chmod来改变用户权限。  我们在ls -a的时候可以看见文件的权限    -rw-r-----  第一个-代表这个是文件   rw- 代表文件所有着具有读写权限   r-- 代表本组人员具有读权限  ---代表其他用户组没有权限对此文件操作)

 

 

 

 

 

        

        

                

        

         

    

 

© 著作权归作者所有

共有 人打赏支持
天呀鲁哇
粉丝 8
博文 82
码字总数 42007
作品 0
长宁
程序员
大数据Hadoop伪分布式集群搭建

安装hadoop ------------------- 1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~ $>mkdir downloads $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ......

sod5211314 ⋅ 04/22 ⋅ 0

Hadoop单机模式部署

一、Hadoop部署模式 单机模式:默认情况下运行为一个单独机器上的独立Java进程,主要用于调试环境 伪分布模式:在单个机器上模拟成分布式多节点环境,每一个Hadoop守护进程都作为一个独立的J...

结束的伤感 ⋅ 2016/04/20 ⋅ 0

Hadoop伪分布搭建

1.安装java https://my.oschina.net/u/3132676/blog/804599 2.下载hadoop压缩包 http://hadoop.apache.org/#Download+Hadoop 我下的是2.7.3 3.创建hadoop账户 sudo useradd hadoop 设置密码:......

D语无伦次 ⋅ 2016/12/19 ⋅ 0

Hadoop单点部署与案例开发(微博用户数据分析)

一、环境搭建 1、Hadoop运行环境搭建 1.1 安装虚拟机 (1)下载并安装VMware虚拟机软件。 (2)创建虚拟机,实验环境虚拟机配置如下图所示。 (3)安装Ubuntu系统,安装结果如下图所示。 1....

天夣 ⋅ 2017/06/02 ⋅ 0

ZooKeeper伪分布式集群安装及使用

ZooKeeper伪分布式集群安装及使用 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。 现在硬件越来越便宜,一台...

张升强 ⋅ 2013/10/31 ⋅ 1

Hadoop安装(Hadoop2.7.3)

在Ubantu14.04上部署Hadoop2.7.3 伪分布式集群 01.安装Ubantu14.04(过程略) 02.安装JDK1.8 01)下载JDK1.8,将jdk-8u131-linux-x64.tar.gz上传至ubantu中 02)在根目录下创建soft文件夹,并改变...

小马Ha ⋅ 2017/07/08 ⋅ 0

Ubuntu上搭建Hadoop环境

单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文...

pj7572780 ⋅ 2016/11/22 ⋅ 0

CentOS 7下安装集群Hadoop-2.7.3

一、硬件环境 我使用的硬件是云创的一个minicloud设备。由三个节点(每个节点8GB内存+128GB SSD+3块3TB SATA)和一个千兆交换机组成。 二、安装前准备 1.在CentOS 7下新建hadoop用户,官方推...

xhHuang ⋅ 2016/12/18 ⋅ 0

Hadoop 搭建全分布模式子节点的datanode未起来的解决办法

搭建全分布模式hadoop的时候,子节点的datanode没有起来: 解决办法参考如下网站: https://blog.csdn.net/u013310025/article/details/52796233 总结:在全分布模式下,将hadoop文件用scp -...

yeqiang2015 ⋅ 04/21 ⋅ 0

ZooKeeper伪分布式集群安装及使用

前言 ZooKeeper是Hadoop家族的一款高性能的分布式协作的产品。在单机中,系统协作大都是进程级的操作。分布式系统中,服务协作都是跨服务器才能完成的。在ZooKeeper之前,我们对于协作服务大...

_夏天的风_ ⋅ 2014/08/25 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Java Web如何操作Cookie的添加修改和删除

创建Cookie对象 Cookie cookie = new Cookie("id", "1"); 修改Cookie值 cookie.setValue("2"); 设置Cookie有效期和删除Cookie cookie.setMaxAge(24*60*60); // Cookie有效时间 co......

二营长意大利炮 ⋅ 52分钟前 ⋅ 0

【每天一个JQuery特效】淡入淡出显示或隐藏窗口

我是JQuery新手爱好者,有时间就练练代码,防止手生,争取每天一个JQuery练习,在这个博客记录下学习的笔记。 本特效主要采用fadeIn()和fadeOut()方法显示淡入淡出的显示效果显示或隐藏元...

Rhymo-Wu ⋅ 55分钟前 ⋅ 0

Spring JDBC使用方法

普通实现: 1、创建数据表customer。 可以使用任何数据库实现,在项目中要引入相应数据库驱动包并配置相应数据库连接。 2、创建Customer pojo。 Customer类的属性对应数据库的属性,除了为每...

霍淇滨 ⋅ 今天 ⋅ 0

Contos 7 安装Jenkins

Jenkins是一款能提高效率的软件,它能帮你把软件开发过程形成工作流,典型的工作流包括以下几个步骤 开发 提交 编译 测试 发布 有了Jenkins的帮助,在这5步中,除了第1步,后续的4步都是自动...

欧虞山 ⋅ 今天 ⋅ 0

revel

revel install go get github.com/revel/revelgo get github.com/revel/cmd create new app revel new git.oschina.net/zdglf/myapp run app revel run git.oschina.net/zdglf/myapp ot......

zdglf ⋅ 今天 ⋅ 0

49. Group Anagrams - LeetCode

Question 49. Group Anagrams Solution 思路:维护一个map,key是输入数组中的字符串(根据字符排好序) Java实现: public List<List<String>> groupAnagrams(String[] strs) { Map<Strin......

yysue ⋅ 今天 ⋅ 0

spring Email

使用spring发Email其实就是使用spring自己封装携带的一个javamail.JavaMailSenderImpl类而已。这个类可以当一个普通的java对象来使用,也可以通过把它配置变成spring Bean的方式然后注入使用...

BobwithB ⋅ 今天 ⋅ 0

spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

tuoleisi77 ⋅ 今天 ⋅ 0

思考

时间一天天过感觉自己有在成长吗?最怕的是时光匆匆而过,自己没有收获!下面总结下最近自己的思考。 认识自己 认识另一个自己,人们常说要虚心听取别人意见和建议。然而人往往是很难做到的,...

hello_hp ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部