文档章节

【hadoop】7.HDFS-简介

Areya
 Areya
发布于 01/12 17:21
字数 831
阅读 8
收藏 2

简介

通过本教程您可以学习到:

  1. HDFS概念
  2. HDFS的组成
  3. HDFS文件块大小

1、HDFS概念

HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

之所以不适合修改,是因为HDFS底层存储逻辑以及其应用目的决定的。首先其应用目的是用于海量的数据分析,这当然不会去对文件的读、写两方面进行兼顾;再加上底层是将文件进行了分块的(128M一块),修改文件内容首先要合并、然后在写入,又在切分,也许差强人意,但是真正的网盘应用不适合用他做的,推荐CEPH。

2、HDFS的组成

在Hadoop的简介章节我们已经介绍过这里的知识了,这里我们在回顾一遍。

HDFS集群包括,NameNode和DataNode以及Secondary Namenode。其中:

  • NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
  • DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。
  • Secondary NameNode用来监控HDFS状态的辅助后台程序(辅助namenode),每隔一段时间获取HDFS元数据的快照。

3、HDFS文件块大小

1、HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M;

2、HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。

在通常情况下,寻址时间约为10ms,而传输速率为100MB/s,为了使寻址时间仅占传输时间的1%,我们要将块大小设置约为100MB。默认的块大小实际为64MB,但是很多情况下HDFS使用128MB的块设置。

块的大小:10ms100100M/s = 100M

这条公式的原理是普遍认同的定律:寻址时间为传输时间的1%为传输的最佳状态。

也就说文件块的大小设置原理是从寻址时间和传输时间而来的。

参考

本系列的文章参考资料来源有3个地方:

  1. 尚硅谷官方大数据教学视频。
  2. 书籍《hadoop权威指南 第四版》
  3. 官方文档。

© 著作权归作者所有

Areya
粉丝 28
博文 95
码字总数 164784
作品 0
广州
私信 提问
大数据教程(7.1)客户端向HDFS写数据流程分析

上一章为大家分享了hadoop入门的基础知识,本章博主将带领大家一起升入了解hadoop的HDFS底层原理以及hadoop内部rpc框架的原理和使用。 一、本节目的 HDFS工作机制的学习主要是为了加深大家对...

em_aaron
2018/11/07
31
0
20180517早课记录12-Hadoop

1.hadoop的广义和狭义的理解 狭义: Hadoop软件(HDFS、MapReduce、Yarn) 广义: 以hadoop为主的生态圈 2.hadoop三大组件是什么?分别是做什么? HDFS: 分布式文件管理系统 存储 MapReduce: 执行引...

wangkunj
2018/05/17
0
0
大数据之hadoop早课10.15

1.1.谈谈如何理解shuffle 2.简述 mr提交到yarn的工作流程 3.yarn哪两个进程 4.yarn的资源调优参数,是否会配置? 5.谈谈你对jps命令 pid生成在哪个目录 6.谈谈你们对pid的理解 7.hdfs读流程是...

hnairdb
2018/10/17
4
0
大数据之hadoop早课10.11

1.jps命令是来自哪里的 2.jps 发现不可用信息,我们应该怎么办 3.pid文件默认存储哪里?哪个文件修改 4.pid文件人为或Linux系统自动清理,那么会影响服务的正常运行吗? 那么又影响什么呢 5....

hnairdb
2018/10/17
6
0
hadoop的简介与伪分布的搭建

一:大数据hadoop简介 二:hadoop的伪分布安装 三:运行wordcount测试 四:hadoop 常用端口号 五:hadoop的四大模块包含 六:启动脚本: 一: 大数据hadoop简介 二:hadoop的伪分布安装 2.1 ...

flyfish225
2018/04/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Excel数据透视表基础:数据透视表的正确数据格式

1.数据透视表:是一种数据分析方法, 一.使用数据透视表必须用正确的数据格式: 1.数据必须有标题: 2.数据表不能有相同的标题 3.数据表中不能有合并单元格 4.不能有 小计、合计、空行、分类...

东方墨天
6分钟前
1
0
聊聊nacos的NacosDiscoveryAutoConfiguration

序 本文主要研究一下nacos的NacosDiscoveryAutoConfiguration NacosDiscoveryAutoConfiguration nacos-spring-boot-project/nacos-discovery-spring-boot-autoconfigure/src/main/java/com/a......

go4it
40分钟前
4
0
如何保证消息的顺序性?

面试题 如何保证消息的顺序性? 面试官心理分析 其实这个也是用 MQ 的时候必问的话题,第一看看你了不了解顺序这个事儿?第二看看你有没有办法保证消息是有顺序的?这是生产系统中常见的问题...

米兜
44分钟前
7
0
网络安全市场需求

最近,网络安全技能差距的热门话题流传开来。技能差距经常被紧急讨论,可以看出它在实践中的作用是很大的。但信息安全是一门广泛的学科,所以在谈论“技能差距”时需要更具体。有专家表示,真...

linuxCool
今天
3
0
饿了么快应用初体验

作者:饿了么 顾诚 为什么我们选择了快应用 在很长一段时间里,原生饿了么应用对于新用户来说体验成本略高,对于迫切想要点餐的老用户操作有点繁琐;而 Web 版的饿了么应用在体验、速度、功能...

前端老手
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部