文档章节

HDFS详解

A__17
 A__17
发布于 2017/08/09 01:09
字数 817
阅读 9
收藏 0
点赞 0
评论 0

结构:一个HDFS集群是由一个NameNode、一个Secondary NameNode和若干个DataNode组成。

1)NameNode:

	概念:NameNode是HDFS主从结构中主角色的扮演者,它维护着整个文件系统的目录树,维护信息(即HDFS的元数据)存储在本地的fsimage文件和edits文件中。
	
		fsimage:文件系统镜像文件,内存中的HDFS元数据序列化到磁盘上的文件,即HDFS元数据的快照,NameNode启动的时候,默认会加载最新的fsimage。
		edits:	fsimage的编辑日志。
		fstime:最近一次checkpoint的时间。
		
	特点:
		1)NameNode始终在内存中保存metadata,用于处理“读”请求。
		2)NameNode收到“写”请求后,会首先向edits文件中添加日志,成功添加日志后,才会去修改内存中的元数据,并且向客户端返回。

2)Secondary NameNode:

	概念:用于定期合并文件系统镜像和它的编辑日志。
	
	说明:NameNode将改动的内容写到edits中,Secondary NameNode将定期地合并fsimage和edits。
	
	执行过程:
		1)通知NameNode切换edits文件。
		2)从NameNode上下载fsimage文件和edits文件。
		3)把二者合并(先将fsimage加载到内存,然后合并edits),生成新的fsimage文件,并保存在本地。
		4)将新生成的fsimage文件推送给NameNode,NameNode会用最新的fsimage文件替换掉旧的fsimage文件
		
	默认触发合并的时机:每小时合并一次 或 edits文件达到64MB时进行合并

3)DataNode:

	概念:DataNode是HDFS主从结构中从角色的扮演者,它在本地文件系统存储文件块数据,并在NameNode的调度下进行数据块的创建、删除和复制工作。

特点:

1)适合存储超大文件。
2)运行于廉价的硬件之上。
3)流式数据访问:HDFS认为,一次写入,多次读取是最高效的访问模式。

短板:

1)实时的数据访问弱:由于HDFS针对高数据吞吐量做了优化,故牺牲了读取数据的速度,对于响应时间是秒或毫秒的数据访问,可以使用HBase。
2)会占用大量内存:当hadoop启动时,NameNode会将所有的元数据读到内存中,以此来构建目录树。
3)HDFS中的文件只能有一个写入者,并且只能在文件末尾添加数据。

相关概念:

1)文件块:
	1>说明:HDFS中的文件块默认大小:hadoop1.0为64MB;hadoop2.0为128MB,可以通过hdfs-site.xml文件的dfs.block.size属性配置。	
	2>优点:
		1)可以储存比磁盘大的文件:通过把文件分成若干分片实现。
		2)实现了元数据和数据的分开储存和管理。
		3)容错性高。
	3>文件块放置的策略:
		一个文件块默认会有3份备份,一份放在NameNode指定的DataNode上,另一份放在与指定的DataNode不在同一台机器上的DataNode上,最后一份放在与指定的DataNode在同一机架(Rack)上的DataNode上。
		优点:解决了同一机架中失败的情况以及不同机架之间的数据拷贝会带来的性能问题。

© 著作权归作者所有

共有 人打赏支持
A__17
粉丝 2
博文 91
码字总数 102581
作品 0
朝阳

暂无相关文章

vue-cli是什么?

vue-cli是什么? vue-cli 是vue.js的脚手架,用于自动生成vue.js+webpack的项目模板,分为vue init webpack-simple 项目名 和vue init webpack 项目名 两种。 当然首先你的安装vue,webpack...

韦姣敏 ⋅ 33分钟前 ⋅ 0

12c rman中输入sql命令

12c之前版本,要在rman中执行sql语句,必须使用sql "alter system switch logfile"; 而在12c版本中,可以支持大量的sql语句了: 比如: C:\Users\zhengquan>rman target / 恢复管理器: Release 1...

tututu_jiang ⋅ 39分钟前 ⋅ 0

java 线程池

概述 减少了创建和销毁线程的次数,每个工作线程都可以被重复利用,可执行多个任务 可以根据系统的承受能力,调整线程池中工作线线程的数目,防止因为因为消耗过多的内存,而把服务器累趴下(...

轨迹_ ⋅ 44分钟前 ⋅ 0

Nginx的https配置记录以及http强制跳转到https的方法梳理

Nginx的https配置记录以及http强制跳转到https的方法梳理 一、Nginx安装(略) 安装的时候需要注意加上 --with-httpsslmodule,因为httpsslmodule不属于Nginx的基本模块。 Nginx安装方法: ...

Yomut ⋅ 55分钟前 ⋅ 0

SpringCloud Feign 传递复杂参数对象需要注意的地方

1.传递复杂参数对象需要用Post,另外需要注意,Feign不支持使用GetMapping 和PostMapping @RequestMapping(value="user/save",method=RequestMethod.POST) 2.在传递的过程中,复杂对象使用...

@林文龙 ⋅ 57分钟前 ⋅ 0

如何显示 word 左侧目录大纲

打开word说明文档,如下图,我们发现左侧根本就没有目录,给我们带来很大的阅读障碍 2 在word文档的头部菜单栏中,切换到”视图“选项卡 3 然后勾选“导航窗格”选项 4 我们会惊奇的发现左侧...

二营长意大利炮 ⋅ 今天 ⋅ 0

智能合约编程语言Solidity之线上开发工具

工具地址:https://ethereum.github.io/browser-solidity/ 实例实验: 1.创建hello.sol文件 2.调试输出结果

硅谷课堂 ⋅ 今天 ⋅ 0

ffmpeg 视频格式转换

转 Mp4 格式 #> ffmpeg -i input.avi -c:v libx264 output.mp4#> ffmpeg -i input.avi -c:v libx264 -strict -2 output.mp4#> ffmpeg -i input.avi -c:v libx264 -strict -2 -s 1......

Contac ⋅ 今天 ⋅ 0

VCS仿真生成vpd文件(verilog)

VCS仿真生成vpd文件(verilog): https://www.cnblogs.com/OneFri/p/5987673.html SYNOPSYS VCS常用命令使用详解 https://blog.csdn.net/hemmingway/article/details/49382551 DVE是synopsys公......

whoisliang ⋅ 今天 ⋅ 0

Spring Boot启动配置原理

几个重要的事件回调机制 配置在META-INF/spring.factories ApplicationContextInitializer SpringApplicationRunListener 只需要放在ioc容器中 ApplicationRunner CommandLineRunner 启动流程......

小致dad ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部