文档章节

Hadoop 大数据实战手册学习-1

ZZK23
 ZZK23
发布于 2017/03/23 23:08
字数 1047
阅读 36
收藏 0

Hadoop 简介
Hadoop 是一个由 Apache 基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括 HDFS, MapReduce 基本组件
 

1. Hadoop 版本衍化历史
Apache Hadoop版本分为分为 1.0和 2.0两代版本,我们将第一代 Hadoop称为Hadoop1.0,第二代 Hadoop 称为 Hadoop 2.0。
第一代 Hadoop 包含三个大版本,分别是 0.20.x,0.21.x 和 0.22.x,其中,0.20.x 最后演化成 1.0.x,变成了稳定版。
第二代 Hadoop 包含两个版本,分别是 0.23.x 和 2.x,它们完全不同于 Hadoop 1.0,是一套全新的架构,均包含 HDFS Federation 和 YARN 两个系统,相比于 0.23.x, 2.x 增加了NameNode HA 和 Wire-compatibility 两个重大特性。
 

2.Hadoop 生态圈
Hadoop 包括大量的工具,用来协同工作。因此, Hadoop 可用于完成许多事情,以至于,人们常常根据他们使用的方式来定义它。
对于一些人来说, Hadoop 是一个数据管理系统。他们认为 Hadoop是数据分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。对于其他人,Hadoop 是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。还有一些人认为 Hadoop作为一个开源社区,主要为解决大数据的问题提供工具和软件。因为 Hadoop 可以用来解决很多问题,所以很多人认为 Hadoop 是一个基本框架。
虽然 Hadoop提供了这么多的功能,但是仍然应该把它归类为多个组件组成的 Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。

 

1) HDFS: Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统( HDFS)。 HDFS 是一种数据分布式保存机制,数据被保存在计算机集群上。数据写入一次,读取多次。HDFS为 HBase 等工具提供了基础。


2) MapReduce: Hadoop 的主要执行框架是 MapReduce,它是一个分布式、并行处理的编程模型。 MapReduce 把任务分为 map(映射)阶段和 reduce(化简)。开发人员使用存储在HDFS 中数据(可实现快速存储),编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性, Hadoop 能以并行的方式访问数据,从而实现快速访问数据。


3) Hbase: HBase 是一个建立在 HDFS 之上,面向列的 NoSQL 数据库,用于快速读/写大量数据。 HBase 使用 Zookeeper 进行管理,确保所有组件都正常运行。


4) ZooKeeper:用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper,它运行在计算机集群上面,用于管理 Hadoop 操作。


5) Hive: Hive 类似于 SQL 高级语言,用于运行存储在 Hadoop 上的查询语句, Hive 让不熟悉 MapReduce 开发人员也能编写数据查询语句,然后这些语句被翻译为 Hadoop 上面的 MapReduce 任务。像 Pig 一样, Hive 作为一个抽象层工具,吸引了很多熟悉 SQL 而不是 Java 编程的数据分析师。


6) Pig: 它是 MapReduce 编程的复杂性的抽象。 Pig 平台包括运行环境和用于分析 Hadoop数据集的脚本语言(Pig Latin)。其编译器将 Pig Latin 翻译成 MapReduce 程序序列。


7) Sqoop:是一个连接工具,用于在关系数据库、数据仓库和 Hadoop之间转移数据。Sqoop利用数据库技术描述架构,进行数据的导入/导出;利用 MapReduce实现并行化运行和容错技术
 

 

© 著作权归作者所有

ZZK23
粉丝 1
博文 158
码字总数 176435
作品 0
广州
程序员
私信 提问
【电子书】Hadoop实战手册 (样章第一章)

Hadoop实战手册 [美] Jonathan R. Owens,Jon Lentz,Brian Femiano 著; 傅杰,赵磊,卢学裕 译 内容简介   这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手...

dwf07223
2018/06/28
0
0
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
196
2
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
5
0
3月,献给程序员们的技术书

北京的雾霾刚刚过去,小编便开始埋头做三月书讯了。每天关注人邮IT书坊,分享微信内容,都可能会有惊喜降临在你的头上。 本期特别推荐 经典算法谜题的合集 Google、Facebook等一流IT公司算法...

生气的散人
2014/03/05
262
0
光环大数据CLoudera认证&实战课程说明会

7月23日(周六),光环国际将在北京举办一场HadoopSpark大数据开发实战技术私享会,一次参会,全面了解大数据生态体系及如何学习掌握大数据的开发技术,特此邀请你的到来! Cloudera 大数据 国际...

简直是天才
2016/07/21
34
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot + Mybatis-Plus 集成与使用(二)

前言: 本章节介绍MyBatis-Puls的CRUD使用。在开始之前,先简单讲解下上章节关于Spring Boot是如何自动配置MyBatis-Plus。 一、自动配置 当Spring Boot应用从主方法main()启动后,首先加载S...

伴学编程
昨天
7
0
用最通俗的方法讲spring [一] ──── AOP

@[TOC](用最通俗的方法讲spring [一] ──── AOP) 写这个系列的目的(可以跳过不看) 自己写这个系列的目的,是因为自己是个比较笨的人,我曾一度怀疑自己的智商不适合干编程这个行业.因为在我...

小贼贼子
昨天
7
0
Flutter系列之在 macOS 上安装和配置 Flutter 开发环境

本文为Flutter开发环境在macOS下安装全过程: 一、系统配置要求 想要安装并运行 Flutter,你的开发环境需要最低满足以下要求: 操作系统:macOS(64位) 磁盘空间:700 MB(不包含 IDE 或其余...

過愙
昨天
6
0
OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
昨天
2.7K
16
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
昨天
42
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部