文档章节

大数据学习笔记-------------------(29)

henni_719
 henni_719
发布于 2017/03/14 17:26
字数 1037
阅读 23
收藏 0

第五部分HBASE学习

该部分,主要对HIV学习笔记进行记录,学习资料翻译自《hbase_tutorial.pdf》,学习网站:www.tutorialspoint.com

该部分为10个章节来学习HBASE:

Ø  第29章 HBASE介绍

Ø  第30章 HBASE架构与安装

Ø  第31章 HBASE的SHELL

Ø  第32章 HBASE普通命令

Ø  第33章 HBASE ADMINAPI

Ø  第34章 表的操作

Ø  第35章 关闭HBASE与CLIENT API

Ø  第36章 数据操作

Ø  第37章 HBASE SCAN与COUNT/TRUNCATE

Ø  第38章 HBASE 安全

第29章 HBASE介绍

         自从1970年起,RDBMS(关系型数据库管理系统)是数据存储系统的解决方案,但是存在一些关联问题。在出现大数据之后,企业意识到处理大数据的益处,开始选择像Hadoop的这样的解决方案。

       Hadoop使用DFS(分布式文件系统)来存储大数据,MapReduce用来处理大数据。Hadoop可以存储和处理各种格式的大数据,如任意、半结构、非结构的数据格式。

Ø  Hadoop限制

         Hadoop只能执行批处理,并且数据只能以顺序方式访问。这意味着,即使对于最简单的作业,也必须搜索整个数据集。一个巨大的数据集在处理时产生另一个巨大的数据集,也应该按顺序处理。 在这一点上,需要新的解决方案来在单个时间单元(随机存取)中访问任何数据点。

Ø  Hadoop随机访问数据库

         应用程序诸如HBase,Cassandra,couchDB,Dynamodb和MongoDB等用来存储大量数据并以随机方式访问数据的一些数据库。

29.1 HBase是什么?

         HBase是一个基于分布式列的数据库,建立在Hadoop文件系统之上。 它是一个开源项目,可以水平扩展。HBase是一个数据模型,类似于Google的大表,该表旨在对大量结构化数据的快速随机访问。HBase利用Hadoop文件系统(HDFS)提供的容错功能。它是Hadoop生态系统的一部分,该部分提供对Hadoop文件系统中数据的随机实时读/写访问的权限。可以直接或通过HBase将数据存储在HDFS中。数据消费者使用HBase随机读取/访问HDFS中的数据。HBase位于Hadoop文件系统之上,提供读写访问。HBase与HDFS、数据消费者、数据生产者的关系模型如下:


29.2 HBase与HDFS


29.3 HBase存储机制

         HBase是一个面向列的数据库,该数据库上的表通过行(Row)排序。表模式仅定义列族,它们是键值对。表具有多个列族,每个列族可以具有任意数量的列。后续列值连续存储在磁盘上。表的每个单元格值都有一个时间戳。 总之,在HBase中:

Ø  表示一个行集合

Ø  Row(行)是一个列族(ColumnFamilies)集合

Ø  列族(ColumnFamilies)是一个列集合

Ø  列是一个键/值对集合

如下,给出HBase中表的模式:

        

29.4 面向列和面向行

面向列的数据库是将数据表存储为数据列的部分,而不是作为数据行。很快,将有列族


下图显示一个面向列的数据库中的列族:

      

29.5 HBase与RDBMS


29.6 HBase优点

(一)  HBase是线性可扩展的。

(二)  它具有自动故障支持。

(三)  它提供一致的读和写。

(四)  它与Hadoop集成,既作为源,又作为目的地。

(五)  它为客户端提供了简单的Java API。

(六)  它提供跨集群的数据复制。

29.7 HBase使用场景

         ApacheHBase用于对大数据进行随机、实时的读/写访问;它在商品硬件群集上托管非常大的表;ApacheHBase是一个非关系数据库,建模在Google的Bigtable之后。 Bigtable在Google文件系统上运行,同样ApacheHBaseHadoopHDFS之上工作。

29.8 HBase的应用

         它用于需要写大的应用程序时;只要需要提供对可用数据的快速随机访问,就会使用HBaseFacebook、Twitter、YahooAdobe等公司在内部使用HBase

本文转载自:http://blog.csdn.net/henni_719/article/details/53004822

henni_719
粉丝 2
博文 466
码字总数 343938
作品 0
信阳
QA/测试工程师
私信 提问
20天,碎片化时间,266页西瓜书。大神笔记拿走,快速学起来

     五一小长假前,大数据文摘发起了打卡学习活动,收到了读者朋友的积极响应,也成了氛围良好的学习社区。目前,第三轮打卡学习活动即将接近尾声,文摘菌带大家一起来感受打卡学习社区...

大数据文摘
2018/05/13
0
0
R语言data manipulation学习笔记之创建变量、重命名、数据融合

作者简介Introduction taoyan:R语言中文社区特约作家,伪码农,R语言爱好者,爱开源。 个人博客: https://ytlogos.github.io/ 公众号:生信大讲堂 往期回顾 数据分析中数据处理也就是data ...

R语言中文社区
2018/03/26
0
0
AI角 | 把吴恩达深度学习系列课程画出来,这有份诚意满满的笔记求查收

在吴恩达机器学习系列课程完结后不久,一位名叫Tess Ferrandez的小姐姐在推特上分享了一套自己的课程笔记,瞬间收获了3k+赞和1k+转发。 不同于满屏公式代码的黑白笔记,这套信息图不仅知识点...

技术小能手
2018/03/19
0
0
把吴恩达深度学习系列课程画出来,这有份诚意满满的笔记求查收

     大数据文摘作品   在吴恩达机器学习系列课程完结后不久,一位名叫Tess Ferrandez的小姐姐在推特上分享了一套自己的课程笔记,瞬间收获了3k+赞和1k+转发。   不同于满屏公式代码...

大数据文摘
2018/03/19
0
0
COPR 仓库中 4 个很酷的新软件(2018.12)

COPR 是软件的个人存储库的集合,它包含那些不在标准的 Fedora 仓库中的软件。某些软件不符合允许轻松打包的标准。或者它可能不符合其他 Fedora 标准,尽管它是自由开源的。COPR 可以在标准的...

作者: Dominik Turecek
01/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
423
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
4
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
3
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
7
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部