文档章节

Hadoop系列之一:大数据存储及处理平台产生的背景

马哥linux运维
 马哥linux运维
发布于 2016/01/11 21:50
字数 1546
阅读 34
收藏 0

传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据(structured data)。一个设计良好的数据库在其schema中定义这些格式或约束,并由相应的RDBMS为这些提供实现保证。相应地,非结构化数据(unstructured Data)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据,这些数据没有额外的描述信息(元数据)因此无法推断这些信息的真实意义,比如文本文件。半结构化数据(semi-structured data)有着特定的结构,但每个记录的结构未必完全相同,因此,无法为这些数据记录提供预定义的schema,其元数据只有在数据创建时才能获取,通常都与数据交相存储从而实现自我描述(self-describing),如XML文件。

 

现今,如搜索引擎类公司的网络爬虫爬行而来的web页面或社交类站点产生的用户访问日志都属半结构化或非结构化数据,传统的关系型数据库管理系统对这类数据的存储及处理能力有限,于是处理这类数据的需求就催生了一种新的数据库系统,即大数据管理系统(Big Data System)或NoSQL。这场声势浩大的数据库管理系统革新运动以Google、Amazon、Yahoo!、Facebook等先锋为主导展开的。这些组织或者由自己的业务生成海量数据,或从互联网上自由获取海量数据,但对这些海量数据进行存储、分析和处理都无一例外地成为支撑其业务的核心需求。初期,他们都采用了当时主流的数据管理技术来满足类似需求,但也都在各自的应用中遇到了规模扩展、存储性能等各方面的限制。尽管数据管理并非他们的核心业务,但数据处理却成支撑其业务运作基本组成部分,因此他们各自注入大量的技术实力依据业务需求进行新技术研发。

 

尽管许多公司都对他们的研究成果采取了保密措施,Google却选择了将他们的成功经验公之于众。2003年,Google公开发表了论文“The Google File System”,系统阐述了采取商用硬件计算机集群存储海量数据的分布式文件系统GFS的实现;GFS采取“数据块”管理文件数据,并在集群中多个节点上存储同一个数据块的副本以实现冗余功能;GFS设计用来支持大规模、数据密集型、分布式应用程序的运行;此外,它还为流式数据读取进行了优化,因此特别适用于存储之后读取数据并对之做出处理类的操作。这之后的第二年,Google又公开发表了另一篇论文“MapReduce: Simplified

Data Processing on Large Clusters”,定义了一个编程模型及其运行框架,提供了于集群中的多个节点上自动并行、容错及可处理数百TB规模的数据集数据处理平台;MapReduce是GFS集群的组成部分,它是一个编程框架,能够让用户编写的代码分布式运行于GFS集群中的多个节点上尽可能通过本地数据访问完成数据的并行处理操作。MapReduce与GFS一同构成了大数据存储及并行处理平台,Google的搜索索引的建立也正是基于此平台得以高效运行。与此同时,Amazon也公开其购物车实现的基础组件Dynamo。

 

Google的MapReduce及GFS提供了海量数据存储及并行处理平台,但GFS并不支持对数据进行随机或实时访问,且仅适用于存储少量的、体积巨大大的文件,对海量小数据文件的管理有此力不从心。故此,Google开始寻找一种能够充分发挥GFS的高可用性及海量存储能力,又能支持类似邮件或分析系统等交互式应用的数据管理解决方案。这种数据存储要能够有效管理海量数据片断,又可以透明地将这些小数据片合并成为适合存储于GFS的大文件,也要内生地支持排序索引以在数据检索时最小程度地触发磁盘IO操作,还要能够存储网络爬行而来的海量数据并将其提供给MapReduce及时、快速构建搜索索引。针对这些需求,传统的RDBMS系统的管理能力已难以为继,因此Google的工程师发明了一种新的处理系统,这种系统移除了关系型数据库系统的众多特性而提供一种仅支持CRUD(Create、Read、Update和Delete)操作的简单API,以及一个实现范围或全表遍历的scan功能。2006年,Google将这些研究成果通过“Bigtable: A Distributed Storage System for Structured Data”论文公之于众。

 

任何对MapReduce、GFS及Bigtable技术感兴的朋友都应该认真读一读Google贡献给全人类的这三篇传世之作。它们也是开源系统Hadoop、HBase等得以构建的理论基石,Hadoop的核心组件为MapReduce和HDFS,其中Hadoop的MapReduce是Google的MapReduce技术的开源实现,HDFS是GFS的开源实现,HBase是Bigtable的开源实现。因此,这三篇论文也是深入学习Hadoop、HBase等的基础性材料。

 

参考资料:

Introduction to Database Systems

Hadoop Operations

Hadoop The Definitive Guide 3rd edtion

HBase The Definitive Guide

HBase in Action

http://en.wikipedia.org/wiki/Unstructured_data

 

本文出自 “马哥Linux培训” 博客,转载请与作者联系!

© 著作权归作者所有

马哥linux运维
粉丝 21
博文 57
码字总数 102602
作品 0
CEO
私信 提问
好程序员大数据教程分享之Hadoop优缺点

好程序员大数据教程分享之Hadoop优缺点,大数据成为时代主流,开启时代的大门,全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更...

好程序员IT
06/11
0
0
【数据库审计】Hadoop架构下的数据库审计

原标题:Hadoop架构下的数据库审计难在哪里 ——大数据渗透到各个行业领域,逐渐成为一种生产要素发挥着重要作用,成为未来竞争的制高点。 在大数据时代下,信息和数据的分析处理都会变得比以...

jusun
03/22
0
0
基于Docker一键部署大规模Hadoop集群及设计思路

欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 一、背景: 随着互联网的发展...

李金泽
2018/03/04
0
0
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
186
2

没有更多内容

加载失败,请刷新页面

加载更多

docker 搭建elasticsearch集群

docker 搭建es集群 1、拉去es镜像 docker pull docker.io/elasticsearch:5.6.8 2、 创建挂载目录 mkdir -p /docker/es/configmkdir -p /docker/es/data1mkdir -p /docker/es/data2......

北岩
30分钟前
2
0
Linux检测邮箱是否真实存在方法

例如我们要验证 laiconglin3@126.com 是否真实存在 nslookup -type=MX 126.com 查找126.com 的MX 地址 test@test:~$ nslookup -type=MX 126.comServer:127.0.1.1Address:127.0.1.1#53......

laiconglin
41分钟前
5
0
微人事

微人事是一个前后端分离的人力资源管理系统,项目采用SpringBoot+Vue开发。 lenve/vhr 微人事系统开源啦!

miaojiangmin
42分钟前
1
0
Mongodb 字符串转Date 计算时间间隔

$dateFromString: { dateString: '2019-07-22', timezone: 'Asia/Shanghai'}} 确定好字符串和时区即可 计算时间间隔 $subtract:[{$dateFromString: {dateString: '2019-07-2......

可达鸭Go
44分钟前
4
0
新建Git仓库并添加本地项目

新建Git仓库并添加本地项目 1、在自己的GitHub上创建一个仓库. 2、执行Git命令 1、进入到项目目录并且初始化git git init 2、添加目录下的文件到本地仓库 git add . 3、提交staged的文件...

_Change_
49分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部