文档章节

HADOOP入门

d
 duan2
发布于 2017/09/03 11:30
字数 928
阅读 38
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

 

本教程参考传智播客教学

1.1 什么是HADOOP

1. HADOOP是apache旗下的一套开源软件平台

2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

3. HADOOP的核心组件有

A. HDFS(分布式文件系统)

B. YARN(运算资源调度系统)

C. MAPREDUCE(分布式运算编程框架)

4. 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2HADOOP生态圈

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

分布式系统概述

  •     该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信进行协作,实现最终的整体功能
  •     比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。

集群搭建

集群简介

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起

  • HDFS集群:

        负责海量数据的存储,集群中的角色主要有 NameNode / DataNode

  • YARN集群:

        负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager

    (那mapreduce是什么呢?它其实是一个应用程序开发包)

本集群搭建案例,以5节点为例进行搭建,角色分配如下:

角色分配

hdp-node-01     

 NameNode SecondaryNameNode

hdp-node-02    

ResourceManager  

hdp-node-03   

DataNode NodeManager
hdp-node-04

DataNode    

NodeManager
hdp-node-05

DataNode    

NodeManager

 

 

网络环境准备

 采用NAT方式联网

网关地址:192.168.64.2

3个服务器节点IP地址:192.168.64.101、192.168.64.102、192.168.64.103

子网掩码:255.255.255.0

服务器系统设置

添加HADOOP用户

为HADOOP用户分配sudoer权限

同步时间

设置主机名

 hdp-node-01

hdp-node-02

hdp-node-03

配置内网域名映射:

192.168.33.101          hdp-node-01

192.168.33.102          hdp-node-02

192.168.33.103          hdp-node-03

配置ssh免密登陆

配置防火墙

 

 HADOOP安装部署

上传HADOOP安装包

规划安装目录  /home/hadoop/apps/hadoop-2.6.1

解压安装包

修改配置文件  $HADOOP_HOME/etc/hadoop/

最简化配置如下:

vi  hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51

vi  core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>
</configuration>

vi  hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.secondary.http.address</name>
<value>hdp-node-01:50090</value>
</property>
</configuration>

vi  mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vi  yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

vi  salves.

hdp-node-01
hdp-node-02
hdp-node-03

启动集群

初始化HDFS

bin/hadoop  namenode  -format

启动HDFS

sbin/start-dfs.sh

启动YARN

sbin/start-yarn.sh

运行一个mapreduce程序

 

cd $HADOOP_HOME/share/hadoop/mapreduce/

hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input  /wordcount/output

 

集群使用初步

 HDFS使用

 

1、查看集群状态

命令:   hdfs  dfsadmin  –report

也可打开web控制台查看HDFS集群信息,在浏览器打开http://hdp-node-01:50070/

2、上传文件到HDFS

 查看HDFS中的目录信息

命令:   hadoop  fs  –ls  /

上传文件

命令:   hadoop  fs  -put  ./ scala-2.10.6.tgz  to  /

从HDFS下载文件

命令:  hadoop  fs  -get  /yarn-site.xml

© 著作权归作者所有

上一篇: LINUX免密登陆
下一篇: HTTP之Web服务器
d
粉丝 0
博文 32
码字总数 31955
作品 0
郑州
私信 提问
(高清,无码)全国第一部hadoop教程全发布,陆续更新中......

雷锋来了,hadoop教程合集! Hadoop从入门到上手企业开发第1天 http://pan.baidu.com/s/1c0vU0dq Hadoop从入门到上手企业开发第2天 http://pan.baidu.com/s/1gd5XKXX Hadoop从入门到上手企业...

大象分享
2015/02/25
2.1K
17
传智播客Hadoop课程视频资料[共七天]

阿里云智能数据库事业部 OLAP 平台团队现向 2021 届海内外院校应届毕业生(毕业时间在2020年11月-2021年10月之间)招聘大数据系统工程师,有机会转正,有意请加 iteblog 微信内推。 本博客分...

Hadoop
2014/02/14
0
0
Hadoop2.x 深入浅出企业级应用实战视频下载

阿里云智能数据库事业部 OLAP 平台团队现向 2021 届海内外院校应届毕业生(毕业时间在2020年11月-2021年10月之间)招聘大数据系统工程师,有机会转正,有意请加 iteblog 微信内推。   本博...

Hadoop
2014/09/16
0
0
传智播客Hadoop实战视频下载地址[共14集]

阿里云智能数据库事业部 OLAP 平台团队现向 2021 届海内外院校应届毕业生(毕业时间在2020年11月-2021年10月之间)招聘大数据系统工程师,有机会转正,有意请加 iteblog 微信内推。   这是...

Hadoop
2014/02/16
0
0
大数据怎样才能踏入进去?年薪60万大数据架构师教你如何入门!

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

董黎明
2018/06/09
71
0

没有更多内容

加载失败,请刷新页面

加载更多

比较好用的自媒体分发工具是哪个?

正是源于互联网生态的健康发展,从15年开始到现在,自媒体文化产业特别有关注度,其品牌形象鲜明、优秀的转化能力的数不胜数的亮点,故而吸引着数不清的创作者,而为了达到更出彩的播放量,这...

易媒助手
24分钟前
38
0
idea2020.1 pojie

前几天最新版的idea2020.1终于发布了,它有多香相信小伙伴们已经有所耳闻。现在就拿出来分享给小伙伴们。   所需要的的东西放在这里了,同时里面也放了一个idea2020.1,小伙伴可以选择性的...

我喜欢你有用吗__
28分钟前
32
0
从企业微信机器人到小爱同学,用 Serverless 实现生活智能化!

通过定时触发器,可以简单快速地定制一个企业微信机器人。我们可以用它来实现喝水、吃饭提醒等小功能,还能实现定时推送新闻、天气,甚至是监控告警的小功能。 使用企业微信机器人 在企业微信...

腾讯云Serverless
31分钟前
32
0
socket编程基础,从了解到实现

java生下来一开始就是为了计算机之间的通信,因此这篇文章也将开始介绍一下java使用socket进行计算机之间的通信,在上一篇文章中已经对网络通信方面的基础知识进行了总结,这篇文章将通过代码...

虹越云霄
32分钟前
41
0
Spring Enable***功能

spring博大精深,衍生出了两大系列:spring boot 和sping cloud快速业务开发模式。 我们进行具体开发时,经常看到这样以Enable*开头的注解,如图 等等好多例子。。。框架自带的Enable* @En...

董广明
34分钟前
41
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部