数据所在,计算随行:Databend 的 2023 年度总结

原创
02/09 21:50
阅读数 64

2023 年是 Databend 为用户和客户全面交付 Data Cloud 数据云平台的一年,真正实现了「数据所在,计算随行」的理念,即将计算力带至数据之处,致力于为用户交付更澎湃的算力。

Databend 自 2021 年开始研发,「三年之期已到」,作为 Snowflake 的开源竞品,Databend 会交出怎样的一份答卷呢?让我们一起看看吧。

Large Scale,直面规模化挑战

以往第一个 Part 是留给开源/社区的,但是今年我们将第一个部分留给用户,谈「规模化」。

一方面,越来越多的用户信任并选择 Databend ,应对生产环境中的海量数据分析场景,我们已经服务于广告投放、医疗健康、AIGC、电信服务、快递物流、企业服务等多个行业,为技术栈现代化、数据汇聚平台、数据归档、广告投放分析、 用户行为分析等多个场景贡献力量。

  • Databend 提供高性能低成本的查询解决方案,支持标准 SQL 和自动索引,减少研发运维的学习成本。Databend 在 DMALL 除了 TiDB、 MySQL 数据归档场景外,又添加一新场景: 日志归档与实时查询,10 亿数据量级下,常用查询均可做到秒级响应。
  • Databend 能够基于对象存储提供高性能查询,数据迁移成本低,并且兼容原有协议和查询语句。使用 Databend 替换 CDH ,某医药集团大表查询和历史归档数据关联查询场景下,查询加载速度提升 2 倍,存储成本降低为本地盘多副本模式的 1/15。

另一方面,Databend 所处理的数据也在规模化,凭借存算分离、算算分离、读写分离的能力,直面业内顶级的数据分析场景。除了云和私有化部署之外,也解锁了混合云的新姿势。

  • Databend 能够应对超大规模数据导入和分析场景,结合读写分离策略,在单表数据数万亿行、 原始数据 超 10 PB 的场景下,可以做到秒级写入、秒级读取。
  • Databend 采用了存算分离的设计理念,既增强系统的灵活性和扩展性,又优化多租户环境下的读写分离策略,显著提升性能、安全性和稳定性。万全网络中台架构从 Greenplum 成功迁移到 Databend:查询性能增加了3.7倍,数据导入性能提高了 1.5 倍,数据导出速度提升了2.5倍,存储效率增加了2倍,同时 schema 维护的效率也提高了4倍。
  • 凭借 Databend 对存储和计算资源的优化,在数据湖场景(数据汇聚平台) 中,帮助用户实现按需按量付费模式。Databend 的数据压缩技术可以将用户数据压缩比提高至 8 - 15 倍,同时,结合高效的 ETL/ELT 工作流,用户能够更便捷地完成数据的清洗和整理工作。

MoreConnectivity,打破数据孤岛新范式

Databend 致力于打破数据孤岛,帮助企业更合理地管理和利用现有的数据资源和计算资源。通过构建更加开放的数据生态和统一的数据管理抽象,Databend 可以助力用户整合公有云、私有云和边缘设备,自如地管理和处理超大规模数据。

在 2023 年,Databend 的着眼点在于如何让数据更加高效流转,让数据活起来、用起来。我们提供了一站式的 ETL 数据处理工作流:

  • 对接丰富的数据存储服务,利用 Stage 打通数据中转链路
  • 支持接入丰富的数据源和数据格式,提供数据清洗与转化能力,让数据立等可用
  • 提供替换、合并、数据流等多样化数据更新方式,保持数据新鲜度和可用性
  • 打造数据开放生态朋友圈,帮助数据「引进来」和「走出去」
  • Databend 支持对 JSON 的高效查询处理,利用 Databend Cloud 的高效数据摄入能力和丰富的可视化集成支持,某 AIGC 初创公司的用户行为分析成本降低至原有方案的十分之一。
  • Databend 支持混合云架构以优化私有化部署成本,结合 Databend Cloud 的弹性计算能力,某短视频内容产业客户采用混合云方案,在环境规模和 IT 成本限制的前提下满足大规模数据分析的算力调度需求。

云数据库或者新一代数仓,并不是 Databend 的最终目标,我们希望通过构建 Connectivity Cloud Database 的范式,为用户创造更具联通性的数字未来。

Crest of Innovation,勇攀数据库之巅

没有持续投入创新和研发,再好的理念也只是空中楼阁。前一部分讲述了理念,接下来我们将介绍 Databend 在 2023 年迭代过程中取得的一些进展。

性能登顶与资源调度优化

TPC-H 是一款面向商品零售业的决策支持系统测试基准,在 TPC-H SF100 测试中,我们利用 22 条查询和接近 6 亿行数据综合评估 Snowflake 和 Databend Cloud 的性能与成本。Databend Cloud 以不到一半的成本实现了更高性能,有关测试详情与复现方式,请参考 https://docs.databend.com/guides/benchmark/tpch

ClickBench 是 ClickHouse 发起的分析型数据库性能测试排行榜,收录了Snowflake、ClickHouse 等 50 多个主流分析型数据库的测试结果,采用公开标准来衡量数据库的性能。2023 年 3 月,在三种不同机型测试中,Databend 的导入性能均获得第一名,Hot Run 查询下,我们有一个机型是第一名,其他两个机型分别是第二,第三名。

(数据采集自 benchmark.clickhouse.com ,2023 年 03 月)

此外,Databend 的 Python 绑定的出色性能和高效资源调度能力也得到用户认可,以是少数几个提供 Python API 且能够在资源有限条件下完成复杂查询的 SQL 数据分析工具之一。

迭代:更贴心的一站式 Lakehouse

2023 年,Databend 的形态更加贴近 Lakehouse ,我们提供一站式的数据分析解决方案,覆盖数据全生命周期,并特别增强以下能力:

  • 更强劲的数据处理能力,支持在导入数据过程中进行数据清洗,MERGE INTOATTACH TABLE,保证数据始终就绪。
  • 更完备的类型和函数支持, 丰富的 JSON 处理函数和 GEO 地理位置函数。
  • 更自如的数据源集成:提供 CONNECTION 复用访问凭据,支持 Delta Table 和 Iceberg 表引擎。
  • 更全面的安全策略和权限模型,涵盖网络、密码、用户访问控制等。

此外,Databend 也正式推出企业版,以提供更丰富的高级特性,助力用户业务成功:

  • 计算列(Computed Columns) :通过表达式从其他列计算生成数据的列,使用计算列可以将表达式的数据存储下来加快查询速度,同时可以简复杂的查询表达式。
  • VACUUM TABLE :从表中永久删除历史数据文件来释放存储空间,有助于优化系统性能。
  • 聚合索引:通过预计算与索引聚合技术,聚合索引可以满足高性能查询;支持自定义索引,支持业务的不同需要。
  • 数据脱敏:基于角色的数据掩码策略,保护您的敏感信息;在提供默认安全的同时保证数据的可用性,满足业务合规需求。
  • Serverless Background Service :自动发现数据写入之后需要压缩、重排序、清理的表,无需其他服务,也无需手动操作,自动触发对应表的维护工作,降低维护负担。

Databend 目前支持的企业级特性可以访问下方链接获取:

https://docs.databend.com/guides/overview/editions/dee/enterprise-features

用户业务从 Snowflake 转换到 Databend / Databend Cloud 几乎没有迁移和使用成本。 我们也提供了详细的特性对照表,可以访问 https://github.com/datafuselabs/databend/issues/13059 获取。

AIR&D,探索大模型驱动的产研工作流

今年最火的关键词莫过于生成式 AI ,Databend 也是最早一批投入精力探索大模型与数据库结合的项目。我们在 Databend 中内置了 AI 函数,支持通过 SQL 调用 OpenAI 兼容 API 、创建了开源的知识库问答方案 AskBend 。

随着 Databend 开源社区的快速发展,新功能的持续增加和现有功能的优化提出了新的测试挑战。除了原有的严格且丰富的测试方案之外,我们还引入了 GPT-4 作为质量保障的一个关键环节,帮助我们执行正确性和优化器层面的测试,智能挖掘潜在的 bug ,确保稳定性。

目前,我们开源了一套由 GPT-4 驱动的数据生成和结果集校验方案,可以访问 https://github.com/datafuselabs/wizard 获取,其中包括:

  • 双缝探测模型:比较当前 PR 版本与主分支(main)版本的结果集来进行验证。
  • 结果集正确性模型:对照其他数仓方案,确保 Databend 的结果集的正确性。

除此之外,Databend 的工作流中也包含丰富的 AI 基础设施,文档团队可以借助 GPT-4 改善文档质量、进行多语言支持,并且提供更符合业务需要的用例,大幅解放生产力。

Beyond Code,构建更棒的社区

(采集自 ossinsight.io ,数据更新略有延迟)

开源,是 Databend 团队不变的初心。在过去一年里,Databend 主 Repo:

  • 新增约 1900 star ,star 总数量达到 6963 。
  • 新增 PR 约 3700 个,总 PR 数量达到 9100+ 。
  • 解决 Issue 1100 余个,累计已解决 Issue 接近 4200 个。
  • 新增 33 位贡献者,在特性支持、功能完善、文档等多个不同方面贡献力量。
  • 总计提交次数突破 30000 。

Databend 团队在 2023 年也积极举办和参与各项技术分享活动,共话技术创新:

  • 举办 7 场线上 Data Infra 分享和 1 场线下的 Rust Tuesday
  • 参与包括 InfoQ、3306π、Rust 中文社区等伙伴举办的多场分享活动

除了贡献者社区和合作伙伴社区的不断发展之外,2023 年的重要变化是,Databend 的用户社区得到进一步的壮大,我们的缘分从代码开始,又在代码之上建立了更加广泛和深刻的联系。感谢大家的一路支持与陪伴,我们期望与大家有更多机会,共同畅聊数字未来。

Crafting the Future,展望 2024

对于 Databend 团队而言,2023 年是一个重要的里程碑,我们直面了规模化挑战,获得了客户的认可与信赖。

2024 年,我们的目标是基于 Databend,通过 SQL 交付包括 CPU 和 GPU 资源在内的更多算力,Compute Where Data Lives: Swift, Smart, Seamless,服务于更多数据科学场景,让算力更加触手可及 。

当前 Databend 的 2024 年开源产品路线图正在讨论中,也欢迎大家关注和参与:https://github.com/datafuselabs/databend/issues/14167

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部