FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构

原创
2023/11/27 19:52
阅读数 25

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于 Flink + Paimon 构建流式数据湖相关问题,更有基于 Paimon + StarRocks、Flink + Paimon + Hologres、Paimon + Spark 的流式湖仓最佳应用实践与分析。

Apache Paimon:Streaming Lakehouse is Coming

李劲松|阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员

议题介绍:

分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:

一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon

二、Paimon 的发展历程,核心能力,如何解决数据湖的流动

三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题

四、Paimon 在阿里云上的实践

五、总结

联通基于 Flink&Paimon 的流式数据湖应用实践

王云朋|联通数科大数据高级技术专家,Apache Paimon Contributor

李振豪|联通数科大数据高级技术专家

议题介绍:

本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。

一、业务背景介绍

二、业务要求和痛点分析

三、基于 Flink&Paimon 的湖仓实践

四、Flink&Paimon 应用中遇到的问题及生产优化

五、未来规划

同程旅行基于 Apache Paimon 的数据湖实践

吴祥平|同程旅行大数据计算组负责人

欧阳佳|同程旅行数据开发工程师

议题介绍:

一、Paimon引入

1.1 引入背景

1.2 引入效果

二、Paimon 优化实战

2.1 写入性能和稳定性

2.1 读取性能和稳定性

2.3 丢数据问题

三、Paimon 生态建设

3.1 生态建设

3.1.1 Paimon 集成 Trino

3.1.2 表服务管理

3.1.3 Binlog 结构自动演进

3.1.4 指标监控

四、未来规划

4.1 数据湖仓云上能力

4.2 数据湖加速(集成SR)

4.3 加速实时数仓构建

汽车之家基于 Paimon 的应用实践

王刚|汽车之家高级数据工程师

议题介绍:

一、业务背景

二、基于 Paimon 的业务场景

2.1 实时湖仓的业务实践

2.2 遇到的问题及解决方案

2.3 业务收益

三、基于 Paimon 的平台实践

3.1 StarRocks 集成 Paimon 加速查询

3.2 基于 Metric 的自助诊断功能

四、未来规划:

4.1 实时平台集成 Paimon Web UI

4.2 流式数仓的血缘关系与数据修复

OPPO Data&AI 统一实时湖仓实践之路

付庆午|OPPO 大数据架构师

议题介绍:

一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务

二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题

三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效

四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练

五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI服务

在阿里云上构建 Flink + Paimon 流式湖仓

翁才智|阿里云智能高级开发工程师,Apache Paimon PPMC,Apache Flink Committer

议题介绍:

一、介绍以 Flink + Paimon 为核心,在阿里云上构建流式湖仓的架构。

二、介绍离线场景下的应用:离线数仓的数据更新与合并需要重算大量数据,成本较高,而 Paimon 的更新能力可以解决这个问题。 介绍如何在阿里云上将基于 MaxCompute 的离线数仓升级为 Flink + Paimon + MaxCompute 的流式湖仓。

三、介绍实时场景下的应用:基于 Flink 的实时数仓虽然能达到秒级延时,但涉及 state 的计算成本较高。如果用户可以接受分钟级延时,可以使用 Paimon 在部分场景下代替 state 相关的运算,从而降低成本。 介绍如何在阿里云上将基于 Flink + Hologres 的实时数仓改为 Flink + Paimon + Hologres 的流式湖仓。

网易基于 Flink+Paimon+Amoro 的流式湖仓实践

周劲松|网易平台开发专家,Amoro Mantainer, Apache Paimon Conrtributor

本次分享将先通过网易在数据湖与数据仓库建设的历史过程和遇到的问题,引出公司对具有流批一体特性的湖仓一体存储方案的需求。然后介绍网易开源湖仓管理平台 Amoro 的定位和核心特性。Paimon 的出现弥补了 Iceberg 在流式湖仓下很多场景的不足,Amoro 集成了 Paimon 并在网易内部基于 Paimon 和 Amoro 在流式湖仓场景进行了大量的业务实践,分享将着重介绍实践案例和带来的业务价值。最后总结并分享未来在研发和实践上的一些规划。分享大致内容:

一、网易湖仓建设背景

二、湖仓管理平台 Amoro

三、Amoro 集成 Paimon

四、Paimon + Amoro 业务实践

五、总结与未来规划

Flink + Paimon + Hologres 湖仓一体数据分析

喻良|阿里云智能高级技术专家

一、传统湖仓库实现方案

二、Flink + Paimon+Hologres 构建湖仓一体数据分析实现方案

2.1 Flink + Paimon 构建数据湖中心

2.2 Hologres 进行查询加速

2.3 Hologres 实现实时数仓

三、Hologres 湖仓一体的技术架构和使用介绍

3.1 介绍 Hologres 湖仓一体的技术架构

3.2 Hologres 加速湖上 Paimon 数据使用介绍

3.3 查询、导入

四、Hologres 湖仓分析未来规划

使用 Paimon+StarRocks 极速批流一体湖仓分析

王日宇|阿里云智能高级开发工程师,StarRocks Committer

议题介绍:

一、Paimon+Starrocks 的各类使用场景介绍

二、使用 Paimon+StarRocks 数据湖分析的技术原理

三、使用 Paimon+StarRocks 构建实时数仓方案介绍

四、Paimon+StarRocks 未来的技术规划

滴滴基于 Flink 在流批一体和数据湖方向的探索和实践

岳猛|滴滴 Flink 引擎负责人,Flink/Hudi/Calcite/ZK Contributor

议题介绍:

滴滴围绕 Flink 进行流批一体和数据湖方向上的技术探索和实践,包括介绍使用 Flink streaming/Batch sql 如何完成流批一体能力的建设以及 Flink + Hudi 在滴滴数据湖场景的技术探索和业务落地等。分享大致内容:

一、为什么要引入流批一体架构

二、基于 Flink 的流批一体的架构的实现

三、流批一体在业务场景的落地

四、Flink & Hudi 技术背景介绍

五、实时入湖建设经验

六、在特征和近实时场景的实践总结

七、流批一体和数据湖技术在滴滴的未来规划

Paimon x Spark:不止于数据入湖

毕 岩|阿里云智能开源大数据平台技术专家

邹欣宇|阿里云智能开源大数据平台开发工程师

议题介绍:

一、Paimon 在 Spark 生态的发展

二、Paimon 在湖仓架构下的典型案例

三、Paimon 通过 Gluten/Volex 加速查询

四、未来规划

基于 Flink&StarRocks 构建新一代数据底座

石强|镜舟科技解决方案架构师

议题介绍:

一、传统 hadoop 数据底座方案的介绍和痛点

二、新数据底座方案的介绍和优势

三、架构升级的预期收益

四、客户案例介绍

五、未来与展望

基于 Flink+Paimon 的大数据平台的建设

张军|广联达数据中台部门担任大数据架构师

议题介绍:

一、背景

  • 为了适应业务的不断发展,公司从传统行业逐渐在做数字化转型,在这个过程中要根据客户的业务场景构建自己的大数据平台,很多业务需要能实时的感知数据变化,以便及时的根据数据的变化做出决策,所以能支持实时的数据变更和处理变得非常重要。所以经过对比,在我们的大数据底座建设过程中,我们选用了 Paimon 作为数据湖存储,使用 Flink 作为流处理的引擎。

二、Flink+Paimon 选型

  • 根据具体的业务场景对大数据架构的存储和计算框架进行选型

三、经典应用场景

四、未来规划

  • 基于 Flink 的 Paimon 批处理查询

  • 提高 Flink 流读 Paimon 的时效性

  • 对 Paimon 持续优化,比如 cache catalog、cache manifest、prefix index 等。

平安证券 Flink+Paimon 的实时架构实践

张 兴|平安证券经纪事业部大数据基础架构负责人

汪超飞|平安证券经纪事业部大数据基础架构工程师

议题介绍:

一、架构介绍

1.1 原有 Flink+HBase 架构介绍

1.2 新的 Flink+Paimon 架构介绍

1.3 新架构带来的变化

二、在开户场景中的实践

2.1 原有任务实现方式介绍

2.2 通过 Flink+Paimon 改造介绍

2.3 架构变化后对业务的提升

快手数据湖在实时场景的建设与实践

钟靓|快手技术专家,Hudi Contributor

议题介绍:

快手数据湖已经在内部开始规模化应用,在时效、资源、效率上均有明显收益。通过数据入湖,在数仓、业务数据范围,打造了新的数据管理架构和生产模式。此次分享内容,主要从典型场景实践出发,讲解技术架构的设计。由三个部分构成:

一、Mysql2Hudi : 实时入湖构建分钟级快照 ods

二、kafka2Hudi : 实时入湖构建动态分区 dwd

三、流批统一:

3.1 样本入湖:搜索、广告、推荐系统训练任务的流批统一

3.2 分层入湖:数仓实时离线任务的流批统一


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴


更多内容


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部