文档章节

Hadoop 大数据实战手册学习-2

ZZK23
 ZZK23
发布于 2017/04/24 17:31
字数 2465
阅读 17
收藏 1

HDFS 文件系统

Hadoop 附带了一个名为 HDFS(Hadoop 分布式文件系统)的分布式文件系统, 专门存储超大数据文件,为整个 Hadoop 生态圈提供了基础的存储服务。
本章内容:
1) HDFS 文件系统的特点,以及不适用的场景
2) HDFS 文件系统重点知识点:体系架构和数据读写流程
3) 关于操作 HDFS 文件系统的一些基本用户命令

1. HDFS 特点:

HDFS 专为解决大数据存储问题而产生的,其具备了以下特点:

1) HDFS 文件系统可存储超大文件

每个磁盘都有默认的数据块大小,这是磁盘在对数据进行读和写时要求的最小单位,文件系统是要构建于磁盘上的, 文件系统的也有块的逻辑概念,通常是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为 512 个字节。

HDFS 是一种文件系统,自身也有块(block)的概念,其文件块要比普通单一磁盘上文件系统大的多,默认是 64MB。

HDFS 上的块之所以设计的如此之大,其目的是为了最小化寻址开销。HDFS文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块并不需要存储在一个磁盘上,因此可以利用集群上任意一个磁盘进行存储, 由于具备这种分布式存储的逻辑,所以可以存储超大的文件,通常 G、 T、 P 级别。

2) 一次写入,多次读取

一个文件经过创建、写入和关闭之后就不需要改变,这个假设简化了数据一致性的问题,同时提高数据访问的吞吐量

3) 运行在普通廉价的机器上

Hadoop 的设计对硬件要求低,无需昂贵的高可用性机器上,因为在 HDFS 设计中充分考虑到了数据的可靠性、安全性和高可用性。

2. 不适用于 HDFS 的场景:

1) 低延迟

HDFS 不适用于实时查询这种对延迟要求高的场景,例如:股票实盘。

往往应对低延迟数据访问场景需要通过数据库访问索引的方案来解决,Hadoop 生态圈中的Hbase 具有这种随机读、低延迟等特点。

2) 大量小文件

对于 Hadoop 系统, 小文件通常定义为远小于 HDFS 的 block size (默认 64MB)的文件, 由于每个文件都会产生各自的 MetaData元数据, Hadoop通过Namenode来存储这些信息,若小文件过多,容易导致 Namenode 存储出现瓶颈。

因为namenode将文件系统的元数据存储在内存中的,文件系统所能存储的文件总数受限于namenode的内存容量。

3) 多用户更新

为了保证并发性, HDFS 需要一次写入多次读取, 目前不支持多用户写入,若要修改,也是通过追加的方式添加到文件的末尾处, 出现太多文件需要更新的情况, Hadoop是不支持的。

针对有多人写入数据的场景,可以考虑采用 Hbase 的方案。

4) 结构化数据

HDFS适合存储半结构化和非结构化数据,若有严格的结构化数据存储场景,也可以考虑采用 Hbase 的方案

5) 数据量并不大

通常 Hadoop 适用于 TB、 PB 数据,若待处理的数据只有几十 GB 的话,不建议使用 Hadoop,因为没有任何好处。

3. HDFS 体系架构

HDFS 是一个主/从(Master/Slave)体系架构,由于分布式存储的性质,集群拥有两类节点 NameNode 和 DataNode。

NameNode (名字节点) : 系统中通常只有一个, 中心服务器的角色, 管理存储和检索多个 DataNode 的实际数据所需的所有元数据。

DataNode(数据节点) :系统中通常有多个,是文件系统中真正存储数据的地方,在NameNode 统一调度下进行数据块的创建、删除和复制。

 

               

图中的 Client 是 HDFS 的客户端,是应用程序可通过该模块与 NameNode 和DataNode 进行交互,进行文件的读写操作。

4. HDFS 数据块复制

为了系统容错,文件系统会对所有数据块进行副本复制多份,Hadoop 是默认 3 副本管理。

复本管理策略是运行客户端的节点上放一个复本(若客户端运行在集群之外,会随机选择一个节点) , 第二个复本会放在与第一个不同且随机另外选择的机架中节点上,第三个复本与第二个复本放在相同机架,且随机选择另一个节点。

所存在其他复本,则放在集群中随机选择的节点上,不过系统会尽量避免在相同机架上放太多复本。

所有有关块复制的决策统一由NameNode负责, NameNode会周期性地接受集群中数据节点 DataNode 的心跳和块报告。 一个心跳的到达表示这个数据节点是正常的。一个块报告包括该数据节点上所有块的列表。  

5. HDFS 读取和写入流程

1) 读文件的过程:

                

1 首先 Client 通过 File System 的 Open 函数打开文件

2 Distributed File System 用RPC 调用 NameNode 节点,得到文件的数据块信息。对于每一个数据块,NameNode节点返回保存数据块的数据节点的地址。 Distributed File System 返回 FS DataInputStream 给客户端,用来读取数据。

3 客户端调用 stream 的 read()函数开始读取数据。

4 DFSInputStream 连接保存此文件第一个数据块的最近的数据节点。

5 DataNode从数据节点读到客户端(client),当此数据块读取完毕时,DFS InputStream 关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。

6 当客户端读取完毕数据的时候,调用 FS DataInputStream 的 close 函数。

在读取数据的过程中,如果客户端在与数据节点通信出现错误,则尝试连接包含此数据块的下一个数据节点。失败的数据节点将被记录,以后不再连接。

2) 写文件的过程:

                   

客户端调用 create()来创建文件, Distributed File System 用 RPC 调用 NameNode节点,在文件系统的命名空间中创建一个新的文件。

NameNode节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。

Distributed File System返回DFS OutputStream,客户端用于写数据。

客户端开始写入数据,DFSOutputStream 将数据分成块,写入 Data Queue。

Data Queue 由 DataStreamer 读取,并通知 NameNode 节点分配数据节点,用来存储数据块(每块默认复制 3块)。分配的数据节点放在一个 Pipeline里。

Data Streamer 将数据块写入Pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。

DFSOutputStream为发出去的数据块保存了Ack Queue,等待Pipeline中的数据节点告知数据已经写入成功。

6. 操作 HDFS 的基本命令

1) 打印文件列表(ls)

标准写法:
hadoop fs -ls hdfs:/    #hdfs: 明确说明是 HDFS 系统路径
简写:
hadoop fs -ls /      #默认是 HDFS 系统下的根目录

打印指定子目录:
hadoop fs -ls /package/test/       #HDFS 系统下某个目录

2) 上传文件、目录(put、 copyFromLocal)

put 用法:

上传新文件:

hdfs fs -put file:/root/test.txt hdfs:/        

#上传本地 test.txt 文件到HDFS 根目录, HDFS根目录须无同名文件,否则“ File exists”

hdfs fs -put test.txt /test2.txt         #上传并重命名文件。

hdfs fs -put test1.txt test2.txt hdfs:/        #一次上传多个文件到 HDFS 路径

上传文件夹:

hdfs fs -put mypkg /newpkg         #上传并重命名了文件夹。

覆盖上传:

hdfs fs -put -f /root/test.txt /         #如果 HDFS 目录中有同名文件会被覆盖

copyFromLocal 用法:

上传文件并重命名:
hadoop fs -copyFromLocal file:/test.txt hdfs:/test2.txt
覆盖上传:
hadoop fs -copyFromLocal -f test.txt /test.txt

3) 下载文件、目录(get、 copyToLocal)

get 用法:

拷贝文件到本地目录:

hadoop fs -get hdfs:/test.txt file:/root/

拷贝文件并重命名,可以简写:

hadoop fs -get /test.txt /root/test.txt

copyToLocal 用法

拷贝文件到本地目录:

hadoop fs -copyToLocal hdfs:/test.txt file:/root/

拷贝文件并重命名,可以简写:

hadoop fs -copyToLocal /test.txt /root/test.txt

4) 拷贝文件、目录(cp)

从本地到 HDFS,同 puthadoop fs -cp file:/test.txt hdfs:/test2.txt

从 HDFS 到 HDFS

hadoop fs -cp hdfs:/test.txt hdfs:/test2.txt
hadoop fs -cp /test.txt /test2.txt

5) 移动文件(mv)
hadoop fs -mv hdfs:/test.txt hdfs:/dir/test.txt
hadoop fs -mv /test.txt /dir/test.txt

6) 删除文件、目录(rm)

删除指定文件
hadoop fs -rm /a.txt

删除全部 txt 文件
hadoop fs -rm /*.txt

递归删除全部文件和目录
hadoop fs -rm -R /dir/

7) 读取文件(cat、 tail)

hadoop fs -cat /test.txt #以字节码的形式读取
hadoop fs -tail /test.txt

8) 创建空文件(touchz)
hadoop fs - touchz /newfile.txt

9) 创建文件夹(mkdir)

hadoop fs -mkdir /newdir /newdir2 #可以同时创建多个
hadoop fs -mkdir -p /newpkg/newpkg2/newpkg3 #同时创建父级目录

10) 获取逻辑空间文件、目录大小(du)

hadoop fs - du /         #显示 HDFS 根目录中各文件和文件夹大小
hadoop fs -du -h /     #以最大单位显示 HDFS 根目录中各文件和文件夹大小
hadoop fs -du -s /     #仅显示 HDFS 根目录大小。即各文件和文件夹大小之和

 

© 著作权归作者所有

ZZK23
粉丝 1
博文 158
码字总数 176435
作品 0
广州
程序员
私信 提问
【电子书】Hadoop实战手册 (样章第一章)

Hadoop实战手册 [美] Jonathan R. Owens,Jon Lentz,Brian Femiano 著; 傅杰,赵磊,卢学裕 译 内容简介   这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手...

dwf07223
2018/06/28
0
0
Hadoop实战开发教程 Hadoop学习视频资料汇总

Hadoop实战开发教程 Hadoop学习视频汇总 Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技...

beifangbubai
2014/07/28
3.6K
4
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
194
2
开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?

详情:http://www.osforce.cn/?p=1216 课程题目:开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop? 开课时间:2013年07月30日 18:30 - 21:30 现场或线上参课:...

程开源
2013/07/19
5
0
3月,献给程序员们的技术书

北京的雾霾刚刚过去,小编便开始埋头做三月书讯了。每天关注人邮IT书坊,分享微信内容,都可能会有惊喜降临在你的头上。 本期特别推荐 经典算法谜题的合集 Google、Facebook等一流IT公司算法...

生气的散人
2014/03/05
262
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
533
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
31
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
16
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
47
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
56
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部