文档章节

告诉你Hadoop是什么

houzhe11
 houzhe11
发布于 2017/04/06 20:42
字数 482
阅读 12
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过hadoop的集群处理后得到结果.

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

 

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

 

  1. 快速部署Hadoop基础架构

  2. 了解关于Hadoop的12个事实

  3. Hadoop核心机制详细解析

  4. Facebook的Hadoop应用与故障转移方案

 

by:www.331king.cn

本文转载自:http://os.51cto.com/art/201207/346023.htm

houzhe11
粉丝 4
博文 9
码字总数 433
作品 0
长沙
后端工程师
私信 提问
加载中

评论(0)

关于学习Hadoop的提问

听说Hadoop已经有很长时间了。其中包含的MapReduce等都强烈的吸引着我想要去学习它。但是,现在就是不知道该从什么地方学起。各位前辈们,请告诉我,学习Hadoop的学习之道吧!前期需要掌握什...

scharf
2013/12/23
462
3
手把手教你配置Hbase完全分布式环境

HBase配置相对比较简单,下面的教程也是基于我上面2篇Hadoop配置的环境下继续往下添加HBase的分布式配置,这次我的HBase安装目录放在跟Hadoop同一目录下面,节点信息跟我前一篇Hadoop完全分布...

loki_lan
2014/11/24
1.2W
0
《Linux查看文件/文件夹权限,并修改权限》

相关的实现命令: 1. 文件权限 使用ls -l查看文件或文件夹的权限后,会出现10个字符的字符串。例如drwxr-xr-x,具体的含义如下: Type:d,User:rwx,Group:r-x,Others:r-x。其中,r:rea...

osc_oj4rjab5
2019/11/26
3
0
初学大数据,一定要知道这些

经常有初学者问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。。。。。。。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以...

铁扇公主1
2017/03/22
396
1
hadoop2.7.0集群,使用中遇到的bug及解决办法

hadoop环境是2.7.0的集群环境,使用sqoop 1.4.6执行从mysql向hive的数据导入。 执行过程中报错,如下方的日志信息。但是查询hive中的数据,发现实际数据已经过来了,但因为mysql的数据表较多...

灵宝
2015/09/28
1.6K
0

没有更多内容

加载失败,请刷新页面

加载更多

webpack.02-如何打包

在空文件夹初始化:CMD npm init -y -y意思是全部yes cnpm install -D webpack webpack-cli 文件结构 src(文件夹)--->index.js console.log('hello webpack') test(文件夹)--->main.js......

_qq507570355
17分钟前
22
0
希望多年运维的大佬能回答一下小弟心中的疑惑

小弟之前公司项目有搭建过一个数据中心,底层虚拟化系统,建设好之后配合开发人员完成好了各种项目环境的搭建。前期比较累一点,也负责各种日志备份,监控系统之类的搭建。当系统趋于稳定之后...

夜雨声声到天明
19分钟前
18
0
OSChina 周三乱弹 —— 只泡面不泡妞

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @Cobbage :分享许巍的单曲《我的爱 (慕思《觉/醒》视频主题曲)》: 《我的爱 (慕思《觉/醒》视频主题曲)》- 许巍 手机党少年们想听歌,请使劲...

小小编辑
41分钟前
24
0
【整体管理】开发人员KPI量化

1.代码规范。 衡量标准:各类的开发规范。 2.任务进度控制能力。 衡量标准:根据任务完成状况来测量。 3.完成质量。 衡量标准:是否发生重大的bug,bug的数量,及修复bug的响应能力。 4.沟通...

郭恩洲_OSC博客
今天
30
0
使用git clone命令克隆文件出现error: RPC failed相关错误

使用git clone命令克隆文件出现error: RPC failed; curl 18 transfer closed with outstanding read data remain问题 笔者最近在使用git clone命令从github克隆源码到电脑时出现了以下问题 ...

独钓渔
今天
22
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部