加载中
Iceberg的V2格式

这是我的第102篇原创文章 【V1与V2简介】 Iceberg在V1的格式中定义了,如何使用不可变类型的文件(Parquet、ORC、AVRO)来管理大型分析型的表,包括元数据文件、属性、数据类型、表的模式,分...

2023/05/01 11:37
633
kafka的controlled shutdown请求

这是我的第101篇原创文章 【背景】 kafka基于k8s容器化部署后,对容器设置了存活探针,即检测监听端口是否存在。然而一次kill kafka进程的操作,服务的重启时间(supervisor会自动再拉起kaf...

2023/04/11 23:17
55
浅谈iceberg的存储文件

这是我的第100篇原创文章 【前言】 上一篇文章介绍了如何通过java api对iceberg进行操作。这次我们来聊聊iceberg里的存储文件。 iceberg中的持久化存储的文件可以简单的分为数据文件和元数据...

2023/03/17 22:00
1.7K
iceberg的java api使用

【前言】 了解一个组件的最好方式是先使用该组件,今天我们就来聊聊如何通过java api对iceberg进行操作。 为什么是选择api进行介绍,而不是更通用的flink、spark、hive等。一方面是觉得flink...

2023/03/10 23:59
2.4K
kafka事务剖析

【kafka事务简介】 在kafka的0.11版本中,引入了kafka事务的特性,确保在一个事务中发送的多条消息,要么都成功,要么都失败。这里说的多条消息可以是发送给不同topic的多个消息。 kafka事务...

2023/03/04 23:11
134
avro格式详解

【Avro介绍】 Apache Avro是hadoop中的一个子项目,也是一个数据序列化系统,其数据最终以二进制格式,采用行式存储的方式进行存储。 Avro提供了: 丰富的数据结构 可压缩、快速的二进制数据...

2023/02/24 22:50
3.9K
kafka的消费者组(下)

上一文对消费者组的一些概念,基本原理进行了简单描述,本文继续来聊聊消费者组中另外一个比较重要的内容:偏移量的存储。 【消费者偏移量的提交】 1. 消息消费的整体流程介绍 消费者在成功加...

2023/02/08 23:30
85
kafka的消费者组(上)

最近在排查一个sparkstreaming在操作kafka时,rebalance触发了一个异常引起任务失败,而组内小伙伴对消费者组的一些基本知识不是很了解,所以抽了些时间进行相关原理的整理。本文就来聊聊相关...

2023/01/13 23:51
3.3K
kafka的消息持久化文件

最近排查kafka的问题,涉及到了kafka的消息存储,本文就相关内容进行总结。 我们都知道,topic是有分区(partition)的概念的, 生产者往同一个topic发送的消息最终是发送到了不同的分区里面...

2023/01/03 23:22
2.3K
issue:yarn-11396

在容量调度方式中,队列的capacity参数是作用于单个用户可以使用的资源上限,这个在文章《YARN——正确理解容量调度的capacity参数》一文中详细讲解过。 然而,最近一次发测自验过程中,发现...

2022/12/17 06:50
388
kafka之ranger插件的一个坑

之前文章写过kafka的鉴权,以及集成ranger插件的配置使用。但真正在用起来后,发现里面有个坑,本文就来聊聊这个坑的情况以及排查过程。 【问题现象】 kafka在集成了ranger插件实现鉴权功能后...

2022/12/09 22:57
88
kafka中 DescribeLogDirs请求参数引起的一个问题

某天,测试人员找到我,反馈说CI的kafka用例失败了,麻烦定位一下。 "麻烦先找下我们的小马甲——公共服务",这句话还没发出去,对方已经先把环境信息给发了过来。 想想应该是个小问题,索性...

2022/11/19 23:14
54
一次flink任务重试失败的问题分析

【背景】 在研究flink任务失败重试的过程中,遇到了一个问题,具体表现为:在任务重试时,出现与NN连接失败,触发新的一次重试,然后重复此流程,直到达到重试上限后,任务失败退出。 本文就...

2022/11/16 00:14
50
yarn container的进程以及kill动作的逻辑

【背景】 在一次问题排查过程中,误杀了yarn任务container的其中一个进程,导致yarn application kill不再生效,并且在rm中任务状态显示为失败,但实际进程还在运行。在分析问题的同时,抽时...

2022/11/04 23:15
158
InetAddress.getByName背后发生了什么

【背景】 在一次问题排查过程中,发现偶现调用"InetAddress.getByName()"无法通过域名解析到IP(实际在容器中都能正确解析到),因此怀疑和容器的DNS解析有问题。但在与容器的开发兄弟沟通过...

2022/10/21 00:08
73
hdfs回收站的配置使用与注意事项

【概述】 在hdfs使用过程中,通过"rm"命令可以进行文件的删除,然后有时候,难免会出现误删了某个文件。那么hdfs是否存在回收站的功能,文件删除而不是真的删除,而是先进入垃圾回收站,这样...

2022/10/15 23:42
42
yarn中的事件分发与状态机框架

【概述】 在早之前的文章《YARN——任务提交启动流程》中提到了,其处理逻辑是围绕applicaiton、container、attempt实例对象的创建,各自状态机的变化来实现的。 具体来说,是将处理逻辑抽象...

2022/10/01 23:29
332
hdfs的一个运维小技巧

【前言】 对于hdfs而言,磁盘故障的处理或者节点的扩容是比较常见的运维操作。对于这种场景的运维操作是相对比较简单的,但关键在于如何快速的使数据在各个dn之间平衡,或者快速的使block数据...

2022/09/27 00:21
90

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部