文档章节

HDFS【2.5.1】系列1:HDFS的核心数据结构---元数据

强子大叔的码田
 强子大叔的码田
发布于 2014/11/15 13:36
字数 661
阅读 278
收藏 2

我们都知道Hadoop的底层是HDFS-Hadoop Distributed File System.也就是Hadoop分布式文件系统。

所有的运算都是基于HDFS文件的,它的核心关键词有:主从NameNode VS DataNode.

-----------其中NameNode上存储的就是元数据---描述数据文件的meta信息。

存在形式有:内存信息+硬盘文件信息。

这段时间,就让我们一起来了解HDFS的元数据以及HDFS文件系统的要义吧。

-------------------------------------------------------------------------------------------------

试想,如果让我们自己设计一个文件系统,我们需要元数据存储哪些信息?

其实这取决于信息得到哪些功能?

个人认为功能包括:

1)namenode和所有datanode的IP,端口,文件夹,容量等信息。这相当于一个总体的文件系统框架描述。

2)每个datanode的文件的层次描述,文件目录关系。这个比1就更细致了。

3)对于某个文件,知道拆分了几块,每块的大小,备份情况,分别分布在哪些datanode上的哪些路径上。

从1我们可以得到分布式文件系统框架的骨架,从2我们可以得到分布式文件系统的血肉,从3我们可以得到具体的访问一个文件的方式。

有了以上3个,实际上就是namenode的元数据信息的组成部分,一切从应用的需求出发才可以得到设计图。

-------------------------------------------------------------------------------------------------

启动时,元数据从硬盘里被FSImage读取到内存中。

在持久化时,元数据被FSImage持久化到硬盘中。

同时硬盘中也会存放操作日志edits.我目前的理解是:把操作日志的行为累加起来---》最终的元数据

这个也就像是redis里干的一样了。很多数据库也是这么操作的,这个没啥好说的,很简答!

-------------------------------------------------------------------------------------------------

HDFS也引入了INode,这实际上跟linux中的文件系统中的INode是一样的,其次就是由于是分布式文件系统

所以每个文件的分片在hdfs中就成了Block。块。

这里必须要强调:块是按照物理大小分的,而不是分局逻辑大小,这样会引入什么问题?

就是一个逻辑记录可能会分到2个块中,而这2个块可能还是跨机器的。

这些hadoop都会解决。以后再讨论。

-------------------------------------------------------------------------------------------------

理论讲得再多,也不及代码来得实在而痛快。

下面就讲一讲HDFS的format究竟做了哪些事情!

 

 

© 著作权归作者所有

强子大叔的码田

强子大叔的码田

粉丝 908
博文 1430
码字总数 1219955
作品 9
南京
架构师
私信 提问
Hadoop系列学习笔记(一)HDFS架构

前言 本篇文章翻译了Hadoop系列下的HDFS Architecture,原文最初经过笔者翻译后大概有6000字,之后笔者对内容进行了精简化压缩,从而使笔者自己和其他读者们阅读本文时能够更加高效快速的完成...

time刺痛你的眼
2017/12/28
0
0
HDFS入门笔记------架构以及应用介绍

引言—HDFS的重要性: Hadoop的定义:适合大数据的分布式存储与计算的一个平台,其中大数据的分布式存储就是由HDFS来完成的,因此掌握好HDFS的相关概念与应用非常重要! 本篇博客将从以下几个...

a2011480169
2016/06/14
0
0
Hadoop系列009-NameNode工作机制

本人微信公众号,欢迎扫码关注! NameNode工作机制 1 NameNode & SecondaryNameNode工作机制 1.1 第一阶段:namenode启动 1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是...

云端笑猿
01/24
0
0
Hadoop学习笔记之HDFS

hadoop是一个适合大数据处理的分布式的存储以及计算平台,我个人感觉称他为平台是 非常贴切的,因为不管是hive、hbase等这类产品都是需要依赖hadoop的两个核心hdfs和mapreduce。hdfs和mapre...

ivan-Zhao
2015/11/06
134
0
Eclipse连接Hadoop分析的三种方式

Hadoop一般都部署在linux平台上,想让Hadoop执行我们写好的程序,首先需要在本地写好程序打包,然后上传到liunx,最后通过指定命令执行打包好的程序;一次两次还可以,如果进行频繁的调试是很...

ksfzhaohui
2016/10/27
2.4K
0

没有更多内容

加载失败,请刷新页面

加载更多

全面兼容IE6/IE7/IE8/FF的CSS HACK写法

浏览器市场的混乱,给设计师造成很大的麻烦,设计的页面兼容完这个浏览器还得兼容那个浏览器,本来ie6跟ff之间的兼容是很容易解决的。加上个ie7会麻烦点,ie8的出现就更头疼了,原来hack ie...

前端老手
27分钟前
5
0
常用快递电子面单批量打印api接口对接demo-JAVA示例

目前有三种方式对接电子面单: 1.快递公司:各家快递公司逐一对接接口 2.菜鸟:支持常用15家快递电子面单打印 3.快递鸟:仅对接一次,支持常用30多家主流快递电子面单打印 目前也是支持批量打...

程序的小猿
30分钟前
6
0
Yii 框架中rule规则必须搭配验证函数才能使用

public $store_id;public $user_id;public $page;public $limit;public $list;public $mch_list;public $cart_id;public $is_community;public $shop_id;public $cart_typ......

chenhongjiang
33分钟前
4
0
Flutter使用Rammus实现阿里云推送

前言: 最近新的Flutter项目有“阿里云推送通知”的需求,就是Flutter的App启动后检测到有新的通知,点击通知栏然后跳转到指定的页面。在这里我使用的是第三方插件Rammus来实现通知的推送,之...

EmilyWu
33分钟前
43
0
Knative 实战:三步走!基于 Knative Serverless 技术实现一个短网址服务

短网址顾名思义就是使用比较短的网址代替很长的网址。维基百科上面的解释是这样的: 短网址又称网址缩短、缩短网址、URL 缩短等,指的是一种互联网上的技术与服务,此服务可以提供一个非常短...

阿里巴巴云原生
48分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部