Apache CarbonData 2.0 线上发布会

2020/05/30 18:45
阅读数 1.3K
AI总结

点击上方“开源社”关注我们





| 主办方:Apache CarbonData开源社
| 编辑:陈梅梅
| 设计:叶修缘丶




Apache CarbonData 2.0 线上发布会


2020/06/03 (周三)19:30 - 21:00


Apache CarbonData x 开源社






活动介绍

Overview



Apache CarbonData 是一个高性能 EB 级别原生 Hadoop 分析型数据仓库,提供面向对象存储上 EB 级数据的高性能明细查询能力、交互式查询能力,提供数据实时同步和更新能力,提供对主要 ETL 业务的支持和加速,以及支持标注、训练型分析的机器学习库。

CarbonData 作为目前为数不多的由中国公司贡献的 Apache 顶级项目,2017 年正式 “出道”,让我们简单回顾下 CarbonData 的历史:

  • CarbonData 1.4 成为 Apache 顶级项目(2017年初):多个国内国外大型客户试用,当时客户性能测试中,Spark on CarbonData 是 Spark on Parquet 的 1.5 ~ 2 倍。促进了 CarbonData 1.0 作为正式产品发布,并成为首个由中国本土公司贡献的 Apache 顶级项目。

  • CarbonData 1.5、1.6(2019年初):Hadoop 生态 ACID 能力,包括事务、容错、元数据管理等。

  • CarbonData 2.0 发布(当前):针对云环境的系统架构重新设计,数十个高级功能,包括存算分离优化、索引和物化视图能力、数据湖能力、数据实时同步和更新等等。

可以看出,CarbonData 自出道以来,一直秉承实践和探索的开源精神不断开拓进取,成为 Apache 软件基金会当中,华人力量崛起的重要力量。
下面我们来快速预览 CarbonData 2.0 的重要里程碑特性。


存算分离



              
              
              
  1. - 存储优化:面向对象存储的元数据管理优化,避免数据管理中移动对象、列举对象的高昂开销
  2. - 计算生态:支持 Spark 2.4.5,支持 Flink、Hive、Alluxio、Presto、PyTorch、TensorFlow


明细查询和交互分析


              
              
              
  1. - 详单查询:二级索引、空间索引、Segment 级别 MinMax 索引,实现 PB 级别详单查询秒级响应
  2. - 复杂查询:物化视图、时序预聚合、分桶索引,实现复杂查询秒级响应
  3. - 数据湖索引管理:分布式索引缓存——IndexServer、并支持索引内存预加载


数据实时同步和更新



              
              
              
  1. - Insert、Update 和 Delete 性能增强,支持 Merge 语法


ETL支持和加速



              
              
              
  1. - 支持Hive读写CarbonData事务表,以及读写性能深度优化


AI



              
              
              
  1. - 支持标注、训练型分析的机器学习库


为了让大家进一步了解 Apache CarbonData 2.0,我们将举办 Apache CarbonData 2.0 发布线上直播。


直播信息



届时,不仅有 CarbonData 社区的嘉宾为大家解读 CarbonData 的最新特性和性能,我们还邀请了多位 CarbonData 的开发者和大家分享大数据应用经验和实践。


特邀嘉宾


  • 陈亮(华为;Apache CarbonData PMC & Committer)
  • 李昆(华为;Apache CarbonData PMC & Committer)
  • Kunal Kapoor(Apache CarbonData PMC & Committer)
  • Ravindra Pesala(新加坡开发银行,Apache CarbonData PMC & Committer)
  • Vimal Das(UBER,Apache CarbonData PMC & Committer)
  • Zhichao Zhang(Kyligence,Apache CarbonData PMC & Committer)
  • 曹鲁(上汽集团数据业务部大数据架构师,Apache CarbonData Committer)
  • 贺小桥(美团点评数据平台工程师,Apache CarbonData Committer)
  • 郝行军(Apache CarbonData 核心贡献者)
  • 林旅强 Richard Lin(开源社理事;本次发布会主持人)


会议日程





点击阅读原文可直接参与报名~





开源社简介


开源社是由国内外支持开源的企业,社区及个人,依“贡献,共识,共治”原则,所组织的厂商中立、纯志愿者、非营利的开源联盟,旨在共创健康可持续发展的开源生态体系,并推动中国开源社区成为全球开源软件的积极参与及贡献者。我们专注于开源治理、国际接轨、社区发展和开源项目。






相关阅读 | Related Reading


暑期2020 之“大咖说开源” | 李建盛:开源世界中的“隐”规则


叮~一个有趣又烧脑程序员闯关游戏,等你来玩


如何开始第一个开源项目?


本文分享自微信公众号 - 开源社(kaiyuanshe)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
AI总结
返回顶部
顶部