加载中
kafka的消费者组(上)

最近在排查一个sparkstreaming在操作kafka时,rebalance触发了一个异常引起任务失败,而组内小伙伴对消费者组的一些基本知识不是很了解,所以抽了些时间进行相关原理的整理。本文就来聊聊相关...

01/13 23:51
2.8K
kafka的消息持久化文件

最近排查kafka的问题,涉及到了kafka的消息存储,本文就相关内容进行总结。 我们都知道,topic是有分区(partition)的概念的, 生产者往同一个topic发送的消息最终是发送到了不同的分区里面...

01/03 23:22
2K
issue:yarn-11396

在容量调度方式中,队列的capacity参数是作用于单个用户可以使用的资源上限,这个在文章《YARN——正确理解容量调度的capacity参数》一文中详细讲解过。 然而,最近一次发测自验过程中,发现...

2022/12/17 06:50
327
kafka之ranger插件的一个坑

之前文章写过kafka的鉴权,以及集成ranger插件的配置使用。但真正在用起来后,发现里面有个坑,本文就来聊聊这个坑的情况以及排查过程。 【问题现象】 kafka在集成了ranger插件实现鉴权功能后...

2022/12/09 22:57
30
kafka中 DescribeLogDirs请求参数引起的一个问题

某天,测试人员找到我,反馈说CI的kafka用例失败了,麻烦定位一下。 "麻烦先找下我们的小马甲——公共服务",这句话还没发出去,对方已经先把环境信息给发了过来。 想想应该是个小问题,索性...

2022/11/19 23:14
24
一次flink任务重试失败的问题分析

【背景】 在研究flink任务失败重试的过程中,遇到了一个问题,具体表现为:在任务重试时,出现与NN连接失败,触发新的一次重试,然后重复此流程,直到达到重试上限后,任务失败退出。 本文就...

2022/11/16 00:14
11
yarn container的进程以及kill动作的逻辑

【背景】 在一次问题排查过程中,误杀了yarn任务container的其中一个进程,导致yarn application kill不再生效,并且在rm中任务状态显示为失败,但实际进程还在运行。在分析问题的同时,抽时...

2022/11/04 23:15
17
InetAddress.getByName背后发生了什么

【背景】 在一次问题排查过程中,发现偶现调用"InetAddress.getByName()"无法通过域名解析到IP(实际在容器中都能正确解析到),因此怀疑和容器的DNS解析有问题。但在与容器的开发兄弟沟通过...

2022/10/21 00:08
21
hdfs回收站的配置使用与注意事项

【概述】 在hdfs使用过程中,通过"rm"命令可以进行文件的删除,然后有时候,难免会出现误删了某个文件。那么hdfs是否存在回收站的功能,文件删除而不是真的删除,而是先进入垃圾回收站,这样...

2022/10/15 23:42
9
yarn中的事件分发与状态机框架

【概述】 在早之前的文章《YARN——任务提交启动流程》中提到了,其处理逻辑是围绕applicaiton、container、attempt实例对象的创建,各自状态机的变化来实现的。 具体来说,是将处理逻辑抽象...

2022/10/01 23:29
7
hdfs的一个运维小技巧

【前言】 对于hdfs而言,磁盘故障的处理或者节点的扩容是比较常见的运维操作。对于这种场景的运维操作是相对比较简单的,但关键在于如何快速的使数据在各个dn之间平衡,或者快速的使block数据...

2022/09/27 00:21
27
zk session expire会引起HA模式的rm一直处于standby吗

【概述】 最近连续在多个环境中遇到了同一个问题:在HA模式下,两个resourcemanager均为standby,并且持续没有选举出新的leader。经过一番分析,并对照源码梳理问题出现前后的逻辑流程,最后...

yarn节点属性及调度

【节点属性产生的背景】 在2.X版本中,已经支持节点设置标签,并且允许容量调度中的队列,设置可访问的节点标签以及默认标签值,并按照节点标签进行调度。 但一个节点只能有1个标签,这样在y...

基于ranger的kafka权限控制

上一篇文章讲到了kafka中的ACL,也提到了是以插件式的形式实现的,本文就来聊聊基于ranger的kafka访问控制。 【ranger插件安装】 要使用ranger插件,首先需要对ranger的kafka插件包进行解压缩...

kafka的访问控制

【概述】 通常情况下,Kafka部署后都是自己的业务进行生产消费,但也有一些情况,比如通过kafka和第三方对接,甚至是多个三方对接;或者是多用户使用同一套kafka集群,各自使用不同的topic。...

一文讲透hdfs的delegation token

【背景】 前一段时间总结了hadoop中的token认证、yarn任务运行中的token,其中也都提到了delegation token。而最近也遇到了一个问题,问题现象是:flink任务运行超过七天后,由于宿主机异常导...

kafka客户端消息发送逻辑

【引言】 最近遇到了一个和kafka相关的问题,具体是在spark任务在一定并行度的情况下, 偶现个别executor因kafka消息发送超时导致失败的情况。正所谓磨刀不误砍柴工,为了能较好的定位问题,...

2022/07/16 00:37
2.5K
源码阅读之我见

【概述】 在很多技术交流群里,都看到过同样一个问题:如何阅读源码? 很多情况下,我们对一些开源的组件会用、或者通过官方文档、实际部署测试对其原理有一定程度的理解就可以了,不一定需要...

2022/07/05 22:54
1.2K
容量调度绝对值配置队列使用与避坑

【概述】 在yarn中,对于容量调度而言,需要配置不同的队列,并为队列分配不同的资源。然而资源的配置是按照集群总资源的百分比来的,那么,如果集群资源进行扩容,队列的资源也就相应的增加...

2022/06/25 23:41
4.7K
2.X版本的一个通病问题

【概述】 对于配置了HA模式的RM或者NN,客户端如果向standby的节点发送请求,会因为不可连接或standby拒绝提供服务导致请求失败,转而向Active的节点发送请求,这个转换是hadoop客户端内部自...

2022/06/22 22:54
3K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部