文档章节

大数据(hadoop-生态系统概述以及版本演化)

这很耳东先生
 这很耳东先生
发布于 04/10 20:09
字数 1561
阅读 21
收藏 1

Hadoop生态系统的特点:

源代码开源(免费) 
社区活跃、参与者众多 
涉及分布式存储和计算的方方面面 
已得到企业界验证

Hadoop1.0和2.0:

Hadoop概述:

分布式存储系统HDFS(Hadoop Distributed File System) 
       分布式存储系统 
       提供了高可靠性、高扩展性和高吞吐率的数据存储服务 

资源管理系统YARN(Yet Another Resource Negotiator) 
      负责集群资源的统一管理和调度 

分布式计算框架MapReduce 
      分布式计算框架 
      具有易于编程、高容错性和高扩展性等优点 

Hadoop2.0层级关系:

Hadoop构成 :HDFS 分布式文件存储

源自于Google的GFS论文 
    发表于2003年10月 
    HDFS是GFS克隆版 

HDFS特点 
    良好的扩展性 
    高容错性 
    适合PB级以上海量数据的存储 

基本原理 
    将文件切分成等大的数据块,存储到多台机器上 
    将数据切分、容错、负载均衡等功能透明化 
    可将HDFS看成一个容量巨大、具有高容错性的磁盘 

应用场景 
    海量数据的可靠性存储 
    数据归档 

 

Hadoop构成 :YARN(资源管理系统)

YARN是什么 
    Hadoop 2.0新增系统 
    负责集群的资源管理和调度 
    使得多种计算框架可以运行在一个集群中 
YARN的特点 
    良好的扩展性、高可用性 
    对多种类型的应用程序进行统一管理和调度 
    自带了多种多用户调度器,适合共享集群环境

 

 

 

Hadoop构成 :MapReduce(分布式计算框架)

源自于Google的MapReduce论文 
    发表于2004年12月 
    Hadoop MapReduce是Google MapReduce克隆版
 MapReduce特点 
    良好的扩展性 
    高容错性 
    适合PB级以上海量数据的离线处理

Hadoop生态系统介绍:1.0时代

 

Hadoop生态系统介绍:2.0时代

 

Hadoop生态系统:Hive(基于MR的数据仓库)

由facebook开源,最初用于解决海量结构化的日志数据统计问题; 
    ETL(Extraction-Transformation-Loading)工具 

构建在Hadoop之上的数据仓库; 
    数据计算使用MR,数据存储使用HDFS 

Hive 定义了一种类 SQL 查询语言——HQL; 
    类似SQL,但不完全相同 

通常用于进行离线数据处理(采用MapReduce); 
可认为是一个HQLMR的语言翻译器。

日志分析 
    统计网站一个时间段内的pv、uv 

多维度数据分析 
大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等

其他场景 
    海量结构化数据离线分析 
低成本进行数据分析(不直接编写MR)

Hadoop生态系统:Pig

由yahoo !开源,设计动机是提供一种基于MapReduce的数据分析工具 
构建在Hadoop之上的数据仓库 
定义了一种数据流语言——Pig Latin
通常用于进行离线分析

Hadoop生态系统:wordcount比较 mapreduce

 

Hadoop生态系统:wordcount比较 hive

Hadoop生态系统:wordcount比较 pig

 

Hadoop生态系统:Mahout(数据挖掘库)

基于Hadoop的机器学习和数据挖掘的分布式计算框架
实现了三大类算法 
    推荐(Recommendation) 
    聚类(Clustering) 
    分类(Classification) 

Hadoop生态系统:HBase(分布式数据库)

源自Google的Bigtable论文 
    发表于2006年11月 
    HBase是Google Bigtable克隆版 
HBase特点 
    高可靠性 
    高性能 
    面向列 
    良好的扩展性

Hadoop生态系统:HBase数据模型

Table:表 
    类似于传统传统数据库中的表 
Column Family:列簇 
    Table在水平方向有一个或者多个Column Family组成 
    一个Column Family中可以由任意多个Column组成 
Row Key: 行键 
    Table的主键 
    Table中的记录按照Row Key排序 
Timestamp: 时间戳 
    每行数据均对应一个时间戳 
    版本号

 

Hadoop生态系统:HBase架构

 

Hadoop生态系统:Zookeeper(分布式协作服务)

源自Google的Chubby论文 
    发表于2006年11月 
    Zookeeper是Chubby克隆版纳 

解决分布式环境下数据管理问题 
    统一命名 
    状态同步 
    集群管理 
    配置同步 

 

Hadoop生态系统:Zookeeper 角色及应用

HDFS 
YARN 
Storm 
HBase 
Flume 
Dubbo(阿里巴巴) 
Metaq(阿里巴巴)

 

Hadoop生态系统:Sqoop(数据同步工具)
连接Hadoop与传统数据库之间的桥梁 
    支持多种数据库,包括MySQL、DB2等 
    插拔式,用户可根据需要支持新的数据库
本质上是一个MapReduce程序 
    充分利用了MR分布式并行的特点 
    充分利用MR容错性

Hadoop生态系统:Flume(日志收集工具)

Cloudera开源的日志收集系统
Flume特点 
    分布式 
    高可靠性 
    高容错性 
    易于定制与扩展

 

Hadoop生态系统:Oozie(作业流调度系统)

目前计算框架和作业类型繁多: 
    MapReduce Java、Streaming、HQL、Pig等 
如何对这些框架和作业进行统一管理和调度: 
    不同作业之间存在依赖关系(DAG); 
    周期性作业 
    定时执行的作业 
    作业执行状态监控与报警(发邮件、短信等) 
多种解决方案: 
    Linux Crontab 
    自己设计调度系统(淘宝等公司) 
    直接使用开源系统(Oozie)

Hadoop版本:发行版介绍

Apache Hadoop 
    推荐使用最新的2.x.x版本
    下载地址:http://hadoop.apache.org 
CDH(Cloudera Distributed Hadoop) 
    推荐使用最新的CDH5版本,比如CDH5.0.0 
    下载地址: http://archive.cloudera.com/cdh5/cdh/ 
HDP(Hortonworks Data Platform) 
    推荐使用最新的HDP 2.x版本,比如HDP 2.1版本 
    下载地址:http://zh.hortonworks.com/hdp/downloads/

Hadoop版本:HDP

Hadoop版本:CDH  

 

Hadoop版本:版本选择

不同发行版兼容性 
    架构、部署和使用方法一致,不同之处仅在若干内部实现
建议选择公司发行版,比如CDH或HDP 
    更易维护和升级 
    经过集成测试,不会面临版本兼容问题 

 

 

 

 

© 著作权归作者所有

这很耳东先生
粉丝 9
博文 110
码字总数 288043
作品 0
广州
私信 提问
Sqoop 架构解析及Sqoop1与Sqoop2比较

概述 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。 传统的应用管理系统,也...

PeakFang-BOK
2018/10/12
520
0
十小时入门大数据学习笔记(二)

第二章 初识Hadoop 2.1Hadoop概述 名称由来:项目作者的孩子对黄色大象玩具的命名 开源、分布式存储与分布式计算的平台 在这里还是要推荐下我自己建的大数据学习群:199427210,群里都是学大数...

董黎明
03/02
16
0
Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora ...

杨尚川
2015/01/31
18.9K
9
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
200
2
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
5
0

没有更多内容

加载失败,请刷新页面

加载更多

Hibernate 5 的模块/包(modules/artifacts)

Hibernate 的功能被拆分成一系列的模块/包(modules/artifacts),其目的是为了对依赖进行独立(模块化)。 模块名称 说明 hibernate-core 这个是 Hibernate 的主要(main (core))模块。定义...

honeymoose
30分钟前
2
0
CSS--属性

一、溢出 当内容多,元素区域小的时候,就会产生溢出效果,默认是纵向溢出 横向溢出:在内容和容器之间再套一层容器,并且内部容器要比外部容器宽 属性:overflow/overflow-x/overflow-y 取值...

wytao1995
49分钟前
4
0
精华帖

第一章 jQuery简介 jQuery是一个JavaScript库 jQuery具备简洁的语法和跨平台的兼容性 简化了JavaScript的操作。 在页面中引入jQuery jQuery是一个JavaScript脚本库,不需要特别的安装,只需要...

流川偑
今天
6
0
语音对话英语翻译在线翻译成中文哪个方法好用

想要进行将中文翻译成英文,或者将英文翻译成中文的操作,其实有一个非常简单的工具就能够帮助完成将语音进行翻译转换的软件。 在应用市场或者百度手机助手等各大应用渠道里面就能够找到一款...

401恶户
今天
3
0
jenkins 插件下载加速最终方案

推荐做法 1、告诉jenkins 我哪些插件需要更新 jenkins插件清华大学镜像地址 https://mirrors.tuna.tsinghua.edu.cn/jenkins/updates/update-center.json 1.进入jenkins系统管理 2.进入插件管...

vasks
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部