文档章节

HADOOP入门

d
 duan2
发布于 2017/09/03 11:30
字数 928
阅读 15
收藏 0
点赞 0
评论 0

 

本教程参考传智播客教学

1.1 什么是HADOOP

1. HADOOP是apache旗下的一套开源软件平台

2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

3. HADOOP的核心组件有

A. HDFS(分布式文件系统)

B. YARN(运算资源调度系统)

C. MAPREDUCE(分布式运算编程框架)

4. 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2HADOOP生态圈

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

分布式系统概述

  •     该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信进行协作,实现最终的整体功能
  •     比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。

集群搭建

集群简介

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起

  • HDFS集群:

        负责海量数据的存储,集群中的角色主要有 NameNode / DataNode

  • YARN集群:

        负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager

    (那mapreduce是什么呢?它其实是一个应用程序开发包)

本集群搭建案例,以5节点为例进行搭建,角色分配如下:

角色分配

hdp-node-01     

 NameNode SecondaryNameNode

hdp-node-02    

ResourceManager  

hdp-node-03   

DataNode NodeManager
hdp-node-04

DataNode    

NodeManager
hdp-node-05

DataNode    

NodeManager

 

 

网络环境准备

 采用NAT方式联网

网关地址:192.168.64.2

3个服务器节点IP地址:192.168.64.101、192.168.64.102、192.168.64.103

子网掩码:255.255.255.0

服务器系统设置

添加HADOOP用户

为HADOOP用户分配sudoer权限

同步时间

设置主机名

 hdp-node-01

hdp-node-02

hdp-node-03

配置内网域名映射:

192.168.33.101          hdp-node-01

192.168.33.102          hdp-node-02

192.168.33.103          hdp-node-03

配置ssh免密登陆

配置防火墙

 

 HADOOP安装部署

上传HADOOP安装包

规划安装目录  /home/hadoop/apps/hadoop-2.6.1

解压安装包

修改配置文件  $HADOOP_HOME/etc/hadoop/

最简化配置如下:

vi  hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51

vi  core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>
</configuration>

vi  hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.secondary.http.address</name>
<value>hdp-node-01:50090</value>
</property>
</configuration>

vi  mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vi  yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

vi  salves.

hdp-node-01
hdp-node-02
hdp-node-03

启动集群

初始化HDFS

bin/hadoop  namenode  -format

启动HDFS

sbin/start-dfs.sh

启动YARN

sbin/start-yarn.sh

运行一个mapreduce程序

 

cd $HADOOP_HOME/share/hadoop/mapreduce/

hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input  /wordcount/output

 

集群使用初步

 HDFS使用

 

1、查看集群状态

命令:   hdfs  dfsadmin  –report

也可打开web控制台查看HDFS集群信息,在浏览器打开http://hdp-node-01:50070/

2、上传文件到HDFS

 查看HDFS中的目录信息

命令:   hadoop  fs  –ls  /

上传文件

命令:   hadoop  fs  -put  ./ scala-2.10.6.tgz  to  /

从HDFS下载文件

命令:  hadoop  fs  -get  /yarn-site.xml

© 著作权归作者所有

共有 人打赏支持
d
粉丝 0
博文 32
码字总数 31955
作品 0
郑州
(高清,无码)全国第一部hadoop教程全发布,陆续更新中......

雷锋来了,hadoop教程合集! Hadoop从入门到上手企业开发第1天 http://pan.baidu.com/s/1c0vU0dq Hadoop从入门到上手企业开发第2天 http://pan.baidu.com/s/1gd5XKXX Hadoop从入门到上手企业...

大象分享 ⋅ 2015/02/25 ⋅ 17

大数据怎样才能踏入进去?年薪60万大数据架构师教你如何入门!

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

董黎明 ⋅ 06/09 ⋅ 0

想当程序员?从这里入门吧!

想当程序员? 没找到合适的入门教程? 实验楼上有啊,各技术入门教程~ 【C 语言入门教程】 C语言,不用多介绍,大多数人的入门语言;除了入门教程,还有很多实战项目教程呢,学完基础直接动手...

实验楼 ⋅ 2017/11/21 ⋅ 0

Hadoop资源共享啦

Hadoop资源共享啦!上个暑假,将《Hadoop权威指南》认真看了一遍,看的是第二版。给我最深的体味就是这本书将理论讲得很深入全面、并将理论提 升到了实践,比如说,书中给出了很多处理气象暑假...

liunkor ⋅ 2013/09/12 ⋅ 1

hadoop2.X使用手册1:通过web端口查看主节点、slave1节点及集群运行状态

问题导读: 1.如何通过web查看hdfs集群状态 2.如何通过web查看运行在在主节点master上ResourceManager状态 3.如何通过web查看运行在在slave节点NodeManager资源状态 4.JobHistory 可以查看什...

MLGKO ⋅ 2016/06/06 ⋅ 0

HBase伪分布式安装

文档转自:http://blog.panaihua.com/archives/92 一、概述 我的机器使用hadoop-2.7.2,hbase-1.1.3版本,系统为ubuntu14。 hadoop安装:上一篇文章 二、HBase的安装 下载地址:http://mirr...

kongjun ⋅ 2016/03/02 ⋅ 0

大数据的学习资料汇总

1.大数据学习路线(http://blog.csdn.net/an342647823/article/details/40185181) 2.Hadoop家族学习路线图(http://blog.fens.me/hadoop-family-roadmap/) 3.hadoop实践(五)win10+eclipse+h......

IT追寻者 ⋅ 2016/11/07 ⋅ 0

[Hadoop大数据]——Hive部署入门教程

Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的。只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api。 在部署前需要确认安装jdk...

青夜之衫 ⋅ 2017/12/05 ⋅ 0

一张图片看懂hadoop生态圈

好多朋友觉得,通过扁平的文章了解hadoop生态圈不是很直观。 所以我抽时间,把hadoop生态圈中的各部分通过架构图的形式,直观的整理了出来, 方便对hadoop不了解的朋友更直观的了解hadoop。 ...

I加加 ⋅ 2017/03/31 ⋅ 0

Hadoop之Hbase从入门到精通

Hadoop之Hbase从入门到精通http://yunpan.cn/cwhbfIv2pptiR (提取码:b786)超人学院Hadoop大数据技术资源分享 更多精彩内容请关注超人学院微信 更多精彩内容请关注:http://bbs.superwu.cn...

超人学院 ⋅ 2015/06/12 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Java NIO之字符集

1 字符集和编解码的概念 首先,解释一下什么是字符集。顾名思义,就是字符的集合。它的初衷是把现实世界的符号映射为计算机可以理解的字节。比如我创造一个字符集,叫做sex字符集,就包含两个...

士别三日 ⋅ 38分钟前 ⋅ 0

Spring Bean基础

1、Bean之间引用 <!--如果Bean配置在同一个XML文件中,使用local引用--><ref bean="someBean"/><!--如果Bean配置在不同的XML文件中,使用ref引用--><ref local="someBean"/> 其实两种......

霍淇滨 ⋅ 43分钟前 ⋅ 0

05、基于Consul+Upsync+Nginx实现动态负载均衡

1、Consul环境搭建 下载consul_0.7.5_linux_amd64.zip到/usr/local/src目录 cd /usr/local/srcwget https://releases.hashicorp.com/consul/0.7.5/consul_0.7.5_linux_amd64.zip 解压consu......

北岩 ⋅ 46分钟前 ⋅ 0

Webpack 4 api 了解与使用

webpack 最近升级到了 v4.5+版 01 官方不再支持 node4 以下版本 官方不再支持 node4 以下版本官方不再支持 node4 以下的版本,所以如果你的node版本太低,先开始升级node吧!话说node10 ...

NDweb ⋅ 56分钟前 ⋅ 0

使用nodeJs安装Vue-cli

Vue脚手架就是一个Vue框架开发环境 脚手架的意思是帮你快速开始一个vue的项目,也就是给你一套vue的结构,包含基础的依赖库,只需要 npm install就可以安装,让我们不需要为了编辑或者一些其...

木筏笔歆 ⋅ 今天 ⋅ 0

【微信小程序开发实战】0x00.开发前准备工作

写在开始 本人资深后端码农一枚,近期项目需求,接触到了微信小程序,将学习过程整理成文分享给小伙伴们,由于是边学边整理难免有表述不对的地方,望大家及时指正,感谢。 本人微信号: dream...

dreamans ⋅ 今天 ⋅ 0

linux redis的安装和php7下安装redis扩展

安装redis服务器 (1)下载安装包: $ wget http://download.redis.io/releases/redis-2.8.17.tar.gz (2)编译程序: $ tar xzf redis-2.8.17.tar.gz $ cd redis-2.8.17 $ make $ cd src &&......

concat ⋅ 今天 ⋅ 0

Guava EventBus源码解析

一、EventBus使用场景示例 Guava EventBus是事件发布/订阅框架,采用观察者模式,通过解耦发布者和订阅者简化事件(消息)的传递。这有点像简化版的MQ,除去了Broker,由EventBus托管了订阅&...

SaintTinyBoy ⋅ 今天 ⋅ 0

http怎么做自动跳转https

Apache 版本 如果需要整站跳转,则在网站的配置文件的<Directory>标签内,键入以下内容: RewriteEngine on RewriteCond %{SERVER_PORT} !^443$ RewriteRule ^(.*)?$ https://%{SERVER_NAME......

Helios51 ⋅ 今天 ⋅ 0

Python爬虫,抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿“德州扒鸡”...

python玩家 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部