文档章节

Hadoop中的HDFS详解(2)

肖鋭
 肖鋭
发布于 2014/02/22 11:33
字数 1522
阅读 424
收藏 6

HDFS体系结构简介及优缺点

        体系结构简介

                HDFS是一个主/从(Master、Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(创建,读取,修改,删除)等操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和多个DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNode的交互访问文件系统。客户端联系NameNode以获取文件的元数据,而真正的文件I/O操作是直接和DataNode进行交互的。

        NameNode:

            NameNode是整个文件系统的管理节点.

            作用:

                    1、负责管理文件系统的命名空间、集群配置信息和存储块的复制;

                    2、维护着整个文件系统的文件目录树和文件根目录的元信息和每个文件对应的数据块列表;

                    3、接收用户的操作请求;

                    4、管理文件与block之间的关系,block与DataNode之间的关系;

            NameNode会将文件系统的Meta-Data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。没有NameNode,文件系统将无法使用。实现上,如果运行NameNode服务的机器毁坏,文件系统上所有的文件将会丢失,因为我们不知道如果根据DataNode的块来重建文件。因此,对NameNode实现容错非常重要,Hadoop为此提供了2种机制:

                    第一种机制:备份哪些组成文件系统元数据持久状态的文件。Hadoop可以通过配置使NameNode在多个文件系统上保存元数据的持久状态,这些写操作是实时同步的,是原子操作,一般的配置是将持久状态写入本地磁盘的同时,写入一个远程挂载的网络文件系统(NFS)。

                    第二种机制:运行一个辅助NameNode,但它不能被用作NameNode.这个辅助NameNode的重要作用是定期通过编辑日志合并命名空间镜像,以防止编辑日志过大。这个辅助NameNode一般在另一台单独的物理计算机上运行,因为它需要占用大量CPU时间与NameNode相同容量的内存来执行合并操作。它会报出合并后的命名空间镜像的副本,并在NameNode发送故障时启用,但是,辅助NameNoDE报错的状态总数滞后于主节点,所以在主节点全部失效时,难免会丢失部分数据。在这种情况下,一般把存储在NFS上的NameNode元数据复制到辅助NameNode并作为新的主NameNode运行。

            NameNode中的文件:

                                            fsimage:元数据镜像文件。存储某一时段NameNode内存中的元数据信息。

                                            edits:操作日志文件。

                                            fstime:保存最近一次checkpoint的时间。

        SecondaryNameNode

            HA(双机集群系统简称)的一个解决方案,并非NameNode的热备。

            作用:

                    1、辅助NameNode分担其工作量;

                    2、定期合并fsimage和edits,并推送给NameNode;

                    3、减少NameNode启动时间;

                    4、在紧急情况下,可辅助恢复NameNode;

            执行过程:

                            从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。

        DataNode

            DataNode是提供真实文件数据的存储服务,是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。

            DataNode也是文件系统的工作节点,它们根据需要存储并检索数据库(受客户端或NameNode调度),并且定期向NameNode发送它们所在存储的块的列表。

            块(Block)是DataNode中最基本的存储单位。

            数据块的概念:

                    对于文件内存而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称为一个Block。

                    在HDFS中,HDFS默认Block大小是64MB,不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不会占用整个block的存储空间。

                为什么HDFS中的数据块如此之大?

                        HDFS的块比磁盘块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间可以明显大于这个快开始位置所需的时间。这样,传输一个由多个块组成的文件的时间取决于磁盘传输速率。

                        在很多情况下HDFS使用128MB的设置。但是该参数也不会设置得过大,MapReduce中的map任务通常一次处理一个块中的数据,因此如果任务数太少(少于集群中的节点数据),作业的运行速度就会比较慢。

                        每个文件有多个复本,HDFS中默认是3个。可在hdfs-site.xml中配置(dfs.replication属性)。

        HDFS中的Master:

                在Hadoop中的conf下的Master配置文件中,在此文件中的节点主要的作用:

                            1、管理HDFS的名称空间;

                            2、管理数据块映射信息;

                            3、配置复本策略;

                            4、处理客户端读写请求;

            HDFS中的Slave

                    配置在Hadoop中conf目录下的Slaves文件中的节点主要作用:

                            1、存储实际的数据块;

                            2、执行数据块读/写;

            HDFS中的Client:                    

                    作用:

                            1、文件切分与NameNode交互,获取文件位置信息;

                            2、与DataNode交互,读取或者写入数据;

                            3、管理HDFS;

                            4、访问HDFS;

© 著作权归作者所有

下一篇: Hadoop简介(1)
肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
加载中

评论(1)

mn_1127
mn_1127
mark
Hadoop生态系统

首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。 Hadoop...

huojiao2006
2017/03/06
0
0
hadoop配置文件详解、安装及相关操作

一、 Hadoop伪分布配置 1. 在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6 2. 在conf/core-site.xml文件中增加如下内容: <!-- fs.default.name - 这是一个描述集群中...

村长大神
2014/04/10
47
0
零基础学习hadoop到上手工作线路指导(中级篇)

此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结。 五一假期:在写点内容,也算是总结。上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为...

一枚Sir
2014/08/07
157
0
大数据hadoop是什么?初学者如何进行系统学习?

大数据的火爆程度在不断的增加,似乎一个行业不和大数据相对接就会显得很“LOW”。大数据行业的薪资水平越来越高,决定了更多的人纷纷学习大数据,hadoop作为大数据的一个核心自然就是学习的...

hainiubuluo
2018/05/25
0
0
大数据Hadoop需要了解哪些内容?

一、Hadoop环境搭建 1. Hadoop生态环境介绍 2. Hadoop云计算中的位置和关系 3. 国内外Hadoop应用案例介绍 4. Hadoop概念、版本、历史 5. Hadoop核心组成介绍及hdfs、mapreduce体系结构 6. H...

mo默瑶
2018/05/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Python如何实现单例模式?其他23中设计模式python如何实现?

单例模式主要有四种方法:new、共享属性、装饰器、import。 # __ new__方法:class Singleton(object): def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): ......

每天学Python
4分钟前
5
0
在正则表达式的上下文中,“懒惰”和“贪婪”是什么意思?

有人可以用一种可以理解的方式解释这两个术语吗? #1楼 贪婪意味着您的表情将匹配尽可能大的组,懒惰意味着它将匹配最小的组。 对于此字符串: abcdefghijklmc 这个表达式: a.*c 贪婪的匹...

技术盛宴
8分钟前
37
0
springboot web 大文件上传源代码

一、 功能性需求与非功能性需求 要求操作便利,一次选择多个文件和文件夹进行上传; 支持PC端全平台操作系统,Windows,Linux,Mac 支持文件和文件夹的批量下载,断点续传。刷新页面后继续传输...

东方雨
9分钟前
34
0
这五类人最适合转Web前端,有你吗?

互联网的高速发展促使互联网企业对于网站等页面的用户体验要求也越来越高,导致网站开发难度越来越大,于是一个新兴职业应运而生——web前端工程师。 因为互联网时代的高速发展,公司企业的迫...

梦想编程
16分钟前
39
0
vue打包后静态资源图片失效&&vue动态设置img的src不生效

vue打包后静态资源图片失效: 老版本中需要找到config/index.js,找build打包对象里的assetsPublicPath属性,默认值为/,更改为./就好了; 新版本中只有手动更改vue.config.js, 在里面配置p...

liulunsheng
30分钟前
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部