官宣 | Amoro 0.6.0 版本正式发布

原创
2023/11/23 11:38
阅读数 88

Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

**2023 年 11 月 07 日,Amoro 0.6.0 版本正式更新发布!**这个版本在 0.5.1 版本的基础上,增加了很多 feature,并且提升了可用性和稳定性,推荐各位用户和开发者升级到这个版本。在这次版本更新中,来自社区的 21 位贡献者付出了 118 次提交,感谢每位社区小伙伴的贡献!

01 重要更新

1.Kubernetes 集成

支持通过 Kubernetes 部署 AMS 和 Optimizer,更多详细内容可以参考文章《Amoro 0.6.0 前瞻,全面适配 Kubernetes 与 S3》

2.与 S3 更友好的集成

注册 catalog 的时候可以选择 Storage 是 S3,并且支持 AK/SK 验证体系。

3. Paimon format 支持

Apache paimon是一个具备高速数据摄取,变更日志跟踪和高效的实时分析的实时数据湖平台。

Apache paimon :https://paimon.apache.org/

  • 在 Catalogs 页面支持支持注册 Paimon catalog.

  • 注册完 catalog 以后,可以在 Tables 页面查看表的 Schema, Properties, Files, Snapshots, Optimizing,  Operations等信息。

  • 可以在 Terminal 界面执行 paimon 支持的 Spark sql。

图片

 

4.分区及文件过期

现在只需要在表上进行一些简单的配置,则能开启按照时间自动过期表中文件或分区的功能,如:

CREATE TABLE IF NOT EXISTS user (
    id INT,
    name string,
    ts TIMESTAMP
) USING iceberg 
PARTITIONED BY (days(ts));

ALTER TABLE user SET TBLPROPERTIES (
    'data-expire.enabled' = 'true',
    'data-expire.level' = 'partition',
    'data-expire.field' = 'ts',
    'data-expire.retention-time' = '30d'
);

上面的例子开启了 user 表上的分区自动过期功能,AMS 会自动淘汰超过30天的分区。有关分区及文件自动过期的更多信息可以参考最新的用户手册:https://amoro.netease.com/docs/latest/using-tables/#configure-data-expiration

5.Mixed Format 支持 ORC 文件格式

Mixed Format 用户可以设置文件存储格式为 ORC 格式。

6.Mixed Format 支持 Flink-1.16 和 Flink-1.17

移除了对 Flink-1.12 和 Flink-1.14 的支持,新加了 Flink-1.16 和 Flink-1.17 版本的支持。

7.优化 Position Delete 的内存使用

减少了 Self-Optimizing 过程中由于索引 Iceberg 的 position-delete 数据带来的内存消耗。

02 Release Note

Amoro 0.6.0 版本完整的 Release Note 请参考:

https://github.com/NetEase/amoro/releases/tag/v0.6.0

03 致谢

Amoro 社区的发展离不开大量用户的积极试用和反馈,以及社区开发者的无私贡献,再次感谢大家的付出!也欢迎更多小伙伴共同参与到 Amoro 社区建设中!

0.6.0 版本贡献者(排名不分先后)

图片

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部