hdfs——nn的启动优化

【概述】 上一篇文章讲解了,在一定DN节点规模,一定block数据量下的并发写文件的优化问题。 在这种节点、数据量规模的集群中,当HDFS全部重启(nn+dn全部重启),或者两个NN都重启后,需要经...

2022/01/24 23:19
1.6K
HDFS用了这个优化后,性能直接翻倍

【背景】 前段时间在HDFS的dn节点规模1000+的环境中,并且有1亿block数据量的情况下, 进行大量并发写文件测试时,发现部分客户端写异常并导致最终仅写入了部分数据,本文就该问题进行分析总...

2022/01/15 00:08
1.8K
kafka问题的一次不负责任排查

2022的第一篇文章,分享总结下一个kafka问题的排查过程。 【问题现象】 元旦前,某测试环境因为网络不稳定,出现了kafka与zookeeper连接断开后,没有重连。 【问题定位】 初步查看了下日志,...

2022/01/06 01:20
360
说说hdfs是如何处理块副本多余和缺失的

上一文,我们讲了nn在内存中如何对元数据进行存储和管理的,文章最后也提到了nn内部如何保证块的副本数维持在指定个数,即对副本缺失的块触发块副本复制,对副本多余的块触发块副本删除。本文...

2021/12/17 01:20
999
5000字12张图讲解nn内存中的元数据信息

namenode作为hdfs中的元数据的管理模块,免不了会提到元数据包括哪些?在内存中又是如何存储管理的,本文就来聊聊nn内存中的元数据信息。 【整体概况】 在HDFS中,NN的主要作用是元数据管理,...

2021/12/09 23:16
2.9K
深入supervisor的通信机制与扩展

【背景概述】 在我们的项目中用到了supervisor作为进程守护。在业务改造过程中,需要将一些配置管理的业务迁移并放到一个独立的容器中运行,该容器和主业务容器通信完成对业务程序的配置和运...

2021/11/26 01:28
148
Datanode的磁盘写满了怎么办?

【背景】 回家路上,接到运维兄弟的电话,说一线上环境,某个DN异常了,原因是有个磁盘写满了,他准备将这个盘剔除出去,重启下DN,问我数据会不会丢失。 我说数据不会丢,我们的数据都是多副...

2021/11/17 23:14
323
一文搞懂Hadoop Archive

【概述】 在HDFS存储体系中,可存储的文件数量受限于NN的内存大小。因为在NN内存中,存储了所有文件的block信息。 因此,对于大量小文件问题,可通过联邦(Federation)和归档(Archive)来解...

2021/11/11 01:04
1.3K
BlockToken原理剖析

【简介】 Hadoop安全需要解决两个问题:一个是认证,即解决用户身份合法性验证问题;另一个是授权,即解决认证用户的操作范围问题。 对于认证,Hadoop设计了Security特性和BlockToken方案;对...

一文搞定Journal Node原理

【概述】 hdfs的HA机制,具体来说可以分为两部分,一部分是基于zkfc、zookeeper完成nn之间的选主;而另一部分则是nn之间的元数据共享与同步。 从hdfs2.0版本开始,引入了HA using Quroum Jou...

2021/10/23 01:06
167
基于openjdk的jdbc连不上mysql?

熟悉ranger的应该知道,ranger服务端将服务鉴权的策略信息存储在mysql中。 在使用oracle jdk的过程中,一直都没有出现问题,ranger能正确从mysql读取和存放数据。然而在切换到openjdk后,出现...

ranger插件的鉴权原理

ranger插件开发的上下两篇文章介绍了如何在ranger中支持一个新的服务,并开发对应的客户端插件。但知其然还要知其所以然,简单的几个接口调用的背后,其内部最终是如何进行权限校验的。本文就...

2021/10/11 23:03
151
多图讲解YARN容量调度中的资源抢占

在前面的文章中讲过容量调度中队列的容量配置、容量调度中的优先级调度。 实际使用场景中可能会出现这么几种情况: 某个队列中的正在运行的任务所使用的资源超过了队列配置的容量,那么提交到...

2021/09/08 23:34
219
ranger插件开发(下)

要在ranger中支持一个新的服务模块的权限校验,可以分为两部分,一部分是在ranger中添加一个服务模块,然后添加该服务的实例并配置对应的权限策略;另一部分就是在真正的服务端开发插件,从r...

ranger插件开发(上)

Apache ranger 是一个集中式的安全管理框架,用户可以登录到ranger的web控制台配置不同的策略,实现对hadoop相关生态组件细粒度的权限控制。 最新版本(2.1.0)支持的组件包括hdfs、yarn、h...

2021/09/02 00:00
4.5K
聊聊HDFS中的权限管理

HDFS是一个面向多用户的分布式文件系统。既然是多用户,那么不同用户存储的文件通常需要进行权限隔离,防止被其他用户修改或误删。本文就来聊聊HDFS中的权限管理。 权限校验 要启用权限校验,...

HDFS——块汇报

在《HDFS——写文件流程》一文中,讲述了HDFS的写文件流程。 来考虑这么一个问题,客户端在申请block时,是否可以连续多申请几个block,然后对不同的block并发写,以提升写的速度。 答案是不...

2021/08/14 00:14
213
HDFS——写文件中的异常处理

记得看过一本书,里面是这么写的,软件开发中的二八原则,80%的时间运行的是正常流程,20%的时间是异常流程。而实际代码中,80%的代码是在处理异常逻辑,而正常流程只占20%。 由此可见,异常...

jn
2021/08/11 00:11
926
HDFS——写文件流程

上篇文章讲了数据传输的格式,本文就来说说hdfs中写文件的流程。 hdfs客户端写文件的流程,大体可以分为两个步骤:第一步是创建或打开文件,第二步是进行block的写操作。 block的写操作具体又...

2021/08/06 23:19
1.6K
HDFS——读写文件的数据传输格式

hdfs中很重要的一个流程就是数据的读写,但在此之前,需要先了解数据是如何传输的,数据包的具体的传输格式是怎样的,本文就此进行总结说明。 【数据包格式】 要了解客户端写hdfs是如何组织数...

2021/08/04 00:07
2.9K

没有更多内容

加载失败,请刷新页面