Amoro 试用&贡献活动 | 10月社区评选揭晓

原创
2023/12/12 16:54
阅读数 73

图片

Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

Amoro 开源社区在2023年8月10号发起了新版本的试用与贡献活动。试用活动旨在帮助用户更快地上手 Amoro,同时也在试用过程中收集用户的使用场景,挖掘项目存在的优化改进内容和新的功能需求。贡献活动则希望更多的开发者更加深度地参与到 Amoro 的贡献中来,使得 Amoro 社区更加多元化,以获的更加长远的发展。

目前共有27位用户参与试用活动,20位开发者参与贡献活动。非常感谢每位活动参与者的热情参与和无私奉献,你们的付出和努力是帮助 Amoro 不断前进的重要支撑。同时社区精心准备了礼品赠送给在活动中做出了杰出贡献的同学。贡献统计范围为2023年10月1日至2023年10月30日。经过统计共有3名试用用户在统计时间范围内提交了试用反馈,社区也从所有贡献者中挑选出了2名MVC(Most Vauable Contributor)。

 

010月 MVC

zhongqishang,Amoro Committer

Mentor:来自企查查的仲启尚(Github ID: zhongqishang)从2022年11月开始参与 Amoro 社区的贡献,距今已经贡献了29个PR(Pull Requet),在10月份的贡献活动中解决了 Optimizer 在自动优化 Iceberg equality delete 文件过多的表时可能出现优化过慢或者内存溢出的问题,大大提升了 Optimizer 的稳定性。同时还优化了 Dashboard 上表详情中 Optimizing 页面的展示,方便了用户查看 Optimizing 任务详情。

个人介绍:我来自企查查大数据架构部,之前对 Apache Flink、Flink CDC、Debezium 都有一些小的贡献,参与度不高,第一次深度参与一个开源项目。

社区经历:22 年公司内部计划引入数据湖 Iceberg 的同时,也遇到了 Amoro 开源,Amoro 很好的解决了我们 Iceberg compaction 的问题。在落地的同时,社区贡献上也从一开始简单的 typos 修改到现在的一些合并性能的优化、Planner 的改进等等。

社区寄语:感谢开源,让我们不必重复造轮子;感谢社区,提供了 Amoro 这么优秀的项目,感谢社区成员对于不仅限于 Amoro 上的指导和建议。这一年多时间,Amoro 社区蓬勃发展,让我们一起加油。

huyuanfeng2018,Amoro Contributor

Mentor:来自虎牙的胡源峰(Github ID: huyuanfeng2018)从2023年7月开始参与 Amoro 社区的贡献,距今已经贡献了12个PR(Pull Requet),在10月份的贡献活动中为 Iceberg 表支持了 Tag&Branch 的展示。同时参与了 Amoro metric 功能的开发,提供了表 Optimizing 相关的 metric 信息。

个人介绍:我来自虎牙的大数据平台团队,主要负责实时计算和数据湖的建设。

社区经历:23年7月份,我们寻找一个能很好地管理 iceberg 表以及友好对其进行合并的方案时,邂逅了 amoro。我们决定尝试使用 amoro 来管理我们的 iceberg 表,在 amoro 社区的帮助下,不仅成功地使用 amoro 进行 iceberg 表的管理,还深度参与了社区一些功能的开发。在降低 ams 内存占用方面做了一些优化,也参与了多个 bug 的修复,以及社区多个规划 feature 的讨论并提出建议。

社区寄语:希望 amoro 社区和数据湖一样,持续优秀的发展,拥抱更多的变化、更多的挑战,并在这过程中不断创新和突破。也祝愿社区的开发者越来越多,在更多的场景下解决问题,和我们一起助推 amoro 社区的发展,让他变得更强大、更美好!

02  试用用户反馈

试用活动中,浙江电信、九章数据、多点 DMALL 共3位用户向社区提交了试用反馈。

浙江电信:

浙江电信使用 Amoro 解决了自动优化 iceberg 湖仓表的线上需求。为了提升数仓数据时效性,系统改造上云之后, 避免离线传输扫描生产(teledb)源库影响数据库性能的情况下,引入 iceberg format,并且通过网易有数实时传输将业务数据写入 iceberg 表。在使用 iceberg 过程中,遇到由于eq-delete 文件过多,iceberg 原生的 spark compaction 执行发生 OOM 等原因失败的问题。在接入了 Amoro 后通过 Amoro 提供的 self-optimizing 功能, 可以及时的处理 iceberg 表的小文件问题,维持表可用的基础上提升了表的读取性能。

九章数据:

九章数据基于 Amoro 的 Mixed-Iceberg 格式构建流批一体的数据湖。通过 Flink CDC 数据同步入湖,通过 Mixed Iceberg 表格式保证入湖数据主键的唯一约束。在构建测试场景过程中,发现并反馈了  Mixed Iceberg Format 在生产场景下的多个问题,并与社区开发者一起排查定位,为 Mixed Iceberg Format 在生产场景下使用的稳定性提供了宝贵经验。目前已经接入测试 ODS 表规模超过1K张,并且验证了数据实时同步,并发补数据,使用 Iceberg Catalog 读取 Mixed Iceberg 表构建低延迟的BI 报表等场景,未来期待一起完成流批一体的实时湖仓系统构建。

多点DMALL:

在上云改造的背景下,多点DMALL 引入了 Iceberg 表应对 Hive 表在实效性和表结构变更等方面的痛点。通过 Amoro 提供生产级的 Iceberg 表的运维管理能力,降低人工调度批任务对大量 Iceberg 表进行文件合并、数据过期的维护成本。此外,多点DMALL 还实践了 Spark 引擎调度 Amoro Optimizer ,避免更新不太频繁的场景下,常驻的 Flink Optimizer 持续占用资源,并充分利用 Spark 的动态资源分配(DRA)特性,从而进一步降低资源消耗。

03 欢迎试用与贡献

试用与贡献活动持续至 2023 年 12 月,社区将每月统计上一个月的试用与贡献情况,有效试用反馈的小伙伴将获得一份社区周边大礼包,月度 MVC(Most Valuable Contributor)可获得社区准备的 AirPods 奖品一份。

如果你也有试用或者贡献的意愿,可以在Github中找到社群联系方式并报名会有专属社区 Mentor协助你完成版本试用和项目贡献。

Githubhttps://github.com/NetEase/amoro

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部