FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践

原创
2023/12/04 21:53
阅读数 11

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

生产实践专场集结字节跳动、华为、蚂蚁金服、Shopee、B 站、快手、腾讯、京东物流、小红书的技术专家探讨基于 Flink 的实时场景下技术优化及实践。

Flink 易用性和稳定性在 Shopee 的优化

范 瑞|Tech Lead of Shopee Flink Runtime Team,Apache Flink&Streampark Committer

潘月鹏|Shopee Senior Engineer,Apache StreamPark Committer, Apache Flink Contributor

议题介绍:

本次分享的大部分内容已经(或正在)回馈给 Flink 社区,关注分享及时了解社区动态。

大纲:

一、Troubleshooting 流程优化

  • 作业重启排查流程优化

  • 作业 lag 排查流程优化

二、稳定性优化

  • Container 资源隔离与优化

  • State 和 Checkpoint 的优化

  • 优化 Watermark alignment 达到生产可用

  • 提供更智能更易用的 Restart strategy

三、Task 均衡性调度的优化以及在社区的进展

  • Flink 默认调度器的痛点

  • Task 均衡性调度的原理

  • Task 均衡性调度在社区的进展

  • 收益分析

四、未来规划

  • 优化 Flink 热更新并行度的能力,实现秒级原地扩缩容

  • 基于 Autoscaler 与并行度的热更新实现并行度全托管

B 站 Flink 作业全链路效率优化实践

丁国涛|bilibili 基础架构部资深开发工程师

议题介绍:

本次分享主要介绍 Flink 在 B 站的全链路效率优化的实践,主要包含以下几方面内容:

一、B 站 Flink 现状与挑战

1.1 当前现状

1.2 面临的问题与挑战

二、启动效率优化

2.1 启动效率量化

2.2 启动效率优化

2.3 优化效果

三、运行时容错效率优化

3.1 JobManager HA 优化

3.2 Regional Checkpoint

3.3 Flink SQL 连接关系优化

3.4 单点恢复

四、扩缩容效率优化

4.1 热扩缩方法

4.2 效果展示

五、未来展望

5.1 任务异步重启

5.2 更完备的热扩缩支持

快手 Flink 超大规模生产可用改造

刘建刚|快手技术专家

议题介绍:

一、稳定性建设,讲述快手 Flink 大规模 AZ 逃生能力。

二、Flink runtime adaption 能力建设,主要讲述动态灰度升级。

三、Flink on K8S 技术改造和大规模迁徙。

腾讯基于 Flink 的实时场景下技术优化及实践

张 蛟|腾讯云流计算研发资深高级开发工程师,Apache Flink Contributor

议题介绍:

一、腾讯基于云原生 Flink 的背景及发展现状

二、基于 Flink+数据湖实现流批一体遇到的问题、解决方案及效果

三、针对实时场景下 Flink State 大状态存在的内存及性能问题,优化方案与效果

四、Flink Trace 解决 Flink、Flink Sql、Flink CDC 下的调试困难问题,实现全链路数据跟踪与监控

五、后续的规划及展望

字节跳动实时数仓质量与成本治理平台实践

朱福生|字节跳动数据工程师

议题介绍:

随着业务对数据时效要求的提升和实时任务数量的不断增加,字节跳动已运行了上万的 Flink 实时任务,由于实时任务依赖的组件繁多、开发人员众多 、开发习惯和经验参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此任务治理势在必行,但纵观整个治理过程,仍存在以下矛盾:业务与治理的矛盾、人力与治理的矛盾、问题与可评价的矛盾。本文以下四个方面来介绍实时数仓治理平台如何让实时治理简单、高效、可持续化

一、实时数仓治理平台背景

二、实时数仓治理平台体系

三、实时数仓治理平台收益

四、实时数仓治理平台规划

Flink 自动化运维的大规模落地实践

陈张昊|字节跳动基础架构工程师,Apache Flink Contributor

议题介绍:

过去几年中,字节跳动内部 Flink 作业规模逐渐增长到数万量级,业务有限的人力趋于无力应对随流量变化需人工调优资源配置、单机问题易导致慢节点需人工迁移等带来的运维压力。面对运维难题,沉淀出一套 Flink 自动化运维体系,并在内部大规模落地实践:托管了 1.5W+ 任务,在流量变化时自动扩缩容以避免消费积压的同时可以提升资源使用率、每日自动迁移 1K+ 次慢节点消除消费积压,有效减轻了业务的 Flink 作业运维压力。本次分享我们将从以下 5 个方面介绍 Flink 自动化运维的落地实践。

一、Flink 业务运维难题背景

二、自动化运维系统的整体架构

三、自动扩缩容的实现与生产实践

四、慢节点自动迁移的实现与生产实践

五、未来与展望

Flink 流批一体在华为的平台建设以及应用实践

王 锋|华为技术专家

议题介绍:

一、Flink 流批一体低码数据开发平台建设

二、流批一体运维平台建设

三、流批技术项目演进。主要是体现在资源优化以及性能提升方面的技术项目演进。

四、行业实践。我们支撑场景较多,最近一次我们将流批一体应用在杭州亚运会的分钟级别计算上。

蚂蚁金服 Flink 自动调优实践

张永明|蚂蚁金服实时计算引擎团队技术专家

议题介绍:

一、背景与发展历程:介绍业务使用 Flink 时设置资源的痛点,以及蚂蚁内部在作业调优上尝试的各种方案

二、优化算法介绍 :

2.1 多目标优化算法架构和原理:介绍优化算法的原理以及在一些特殊场景下针对性优化

2.2 优化效果:总结上线后,对延迟作业的优化效果整体利用率的提升

三、集群模式上基于负载调度:介绍在集群模式上的资源画像算法,以及基于实际负载的调度算法

四、未来期望

我的 Flink 作业出了什么问题?如何做平台侧的智能诊断

陈 宇|小红书数据引擎开发工程师,Apache Flink Contributor

议题介绍:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题

二、我们在Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink 实时智能诊断在滴滴的探索与实践

梁钧宁|滴滴高级软件开发工程师

师彬杰|滴滴数据平台资深开发工程师

议题介绍:

本次演讲分为四大块内容:项目背景、诊断能力、成果展示、未来规划。

一、项目背景。介绍智能诊断的背景由来、痛点

二、诊断方案。介绍智能诊断的架构以及当前所具备的能力

三、诊断实践。展示部分诊断案例以及项目取得的阶段性成果

未来规划。智能诊断未来的发展方向。

 

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部