文档章节

告诉你Hadoop是什么

houzhe11
 houzhe11
发布于 2017/04/06 20:42
字数 482
阅读 9
收藏 0
点赞 0
评论 0

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过hadoop的集群处理后得到结果.

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

 

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

 

  1. 快速部署Hadoop基础架构

  2. 了解关于Hadoop的12个事实

  3. Hadoop核心机制详细解析

  4. Facebook的Hadoop应用与故障转移方案

 

by:www.331king.cn

本文转载自:http://os.51cto.com/art/201207/346023.htm

共有 人打赏支持
houzhe11
粉丝 4
博文 9
码字总数 433
作品 0
长沙
后端工程师
关于学习Hadoop的提问

听说Hadoop已经有很长时间了。其中包含的MapReduce等都强烈的吸引着我想要去学习它。但是,现在就是不知道该从什么地方学起。各位前辈们,请告诉我,学习Hadoop的学习之道吧!前期需要掌握什...

scharf
2013/12/23
422
3
Hadoop 和 hive之间的关系是什么?

查阅了很多资料,hadoop的核心是hdsf和mapreduce。那hive是做什么用的?我看资料中说,hive是基于sql的,那hadoop+hive的整合是进行了一个什么实质性的操作?总是说,hdfs是一个分布式文件,...

薄暮凉年
2015/09/14
1K
3
初学大数据,一定要知道这些

经常有初学者问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。。。。。。。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以...

铁扇公主1
2017/03/22
292
1
hadoop2.7.0集群,使用中遇到的bug及解决办法

hadoop环境是2.7.0的集群环境,使用sqoop 1.4.6执行从mysql向hive的数据导入。 执行过程中报错,如下方的日志信息。但是查询hive中的数据,发现实际数据已经过来了,但因为mysql的数据表较多...

灵宝
2015/09/28
1K
0
手把手教你配置Hbase完全分布式环境

HBase配置相对比较简单,下面的教程也是基于我上面2篇Hadoop配置的环境下继续往下添加HBase的分布式配置,这次我的HBase安装目录放在跟Hadoop同一目录下面,节点信息跟我前一篇Hadoop完全分布...

loki_lan
2014/11/24
0
0
大数据开发是先学习Hadoop还是spark,看10万程序猿所留下的结论

首先,我先申明:任何以『做大数据好像挣得多』为名学习数据科学相关的内容都是不谨慎,而且难以有回报的。而且,任何『只要学会一两种工具就能做大数据』的想法也都是盲目的,难有成效的。 ...

h8b6pk7m7r8
2017/11/30
0
0
数据库大调查:MySQL狠甩第二名好几条街

  【IT168 评论】当选择数据库时,没有一个适合所有的解决方案。每个数据库都适用于某些项目和要求,但是这种战斗似乎在MySQL和PostgreSQL之间无休无止了,这其中牵扯了众多巨头企业,比如...

it168网站
2017/07/05
0
0
1、Hive的简介、原理及安装

简介: Hive是一个将SQL解析成MapReduce程序并且提交到Yarn集群运行的工具。它可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。也就是说:借助于Hive,程序员不再需要自己写...

刘付kin
2016/12/01
9
0
hadoop伪分布式需修改的配置文件(5个)

Hadoop主要的配置文件 Hadoop的配置文件都放在/HADOOP_HOME/conf Hadoop配置文件 文件名称 格式 描述 hadoop-env.sh Bash脚本 记录Hadoop要用的环境变量 core-site.xml Hadoop配置XML Hadoo...

周东尧
01/25
0
0
使用IDEA 搭建 spark on yarn 的开发环境+调试~

1.导入yarn和hdfs配置文件 因为spark on yarn 是依赖于yarn和hdfs的,所以获取yarn和hdfs配置文件是首要条件,将core-site.xml、hdfs-site.xml 、yarn-site.xml 这三个文本考入到你IDEA项目里...

qq_31806205
05/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

用axios.all处理并发请求

如果我们需用在两个接口同时完成后在执行一些逻辑,我们可以使用axios.all处理并发请求: function getUserAccount() { return axios.get('/user/12345');}function getUserPermissio...

JamesView
30分钟前
0
0
SpringCloud 微服务 (十六) 服务追踪 Zipkin

问题 在服务中,有一个接口,该A接口中又调用了其他服务的B、C、D接口,出现一个请求耗时大的问题,这时候并不知道该B、C、D接口中哪个接口造成的耗时量,然后比如确定C服务接口出现的耗时量大,但...

___大侠
40分钟前
0
0
Java面试基础篇——第八篇:抽象类与接口的区别

1.抽象类 抽象类:如果一个类中包含有抽象方法,或这个类使用abstract关键字修饰,则称这个类是抽象类。 抽象方法是什么呢?抽象方法就是指用abstract关键字修饰的方法。 需要注意的是:抽象...

developlee的潇洒人生
57分钟前
2
0
jsoup 相关资料

1.jsoup 2.Jsoup概述 3.jsoup入门 4.jsoup Java HTML Parser 1.11.3 API

IT追寻者
58分钟前
0
0
JPA @MappedSuperclass 注解说明

基于代码复用和模型分离的思想,在项目开发中使用JPA的@MappedSuperclass注解将实体类的多个属性分别封装到不同的非实体类中。 1.@MappedSuperclass注解只能标准在类上:@Target({java.lang....

海博1600
今天
0
0
【一】Scala Configuration 相关API

Play使用了 Typesafe config library,但是也提供了一个有着更多Scala高级特性的的 Configuration 封装。不熟悉Typesafe配置的开发者可以移步 configuration文件的语法和特性文档。 读取配置...

Landas
今天
3
0
使用cookie技术 记住账号

1. 效果 2. 实现过程 2.1 前端 将用户的选中传递给后台 这个参数的获取是 参考:https://my.oschina.net/springMVCAndspring/blog/1860498 // var rememberLogin = $("#rememberLoginId").i...

Lucky_Me
今天
1
0
《趣谈网络协议》02之网络分层的真实含义

一、提出问题 1.提出问题 当你听到什么二层设备、三层设备、四层 LB 和七层 LB 中层的时候,是否有点一头雾水,不知道这些所谓的层,对应的各种协议具体要做什么“工作”? 2.这四个问题你弄...

aibinxiao
今天
2
0
Python3学习日志二 Python中的集合set和字典dict

1.集合set 定义一个集合set 我们可以看到定义集合set有两种不同的形式,如果要定义一个空的集合set不能用{}而是要用set();另外,集合是无序的,而且set中的元素是不可重复的,如果你定义了一...

Mr_bullshit
今天
0
0
adb 操作指令详解

ADB,即 Android Debug Bridge,它是 Android 开发/测试人员不可替代的强大工具,也是 Android 设备玩家的好玩具。 注:有部分命令的支持情况可能与 Android 系统版本及定制 ROM 的实现有关。...

孟飞阳
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部