作者 | Alireza Sadeghi 译自Practical Data Engineering
2025年开源数据工程领域呈现蓬勃创新与生态重构的双重态势,九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的2025年开源数据工程全景图全面地展示了这一领域的发展态势与走向,现翻译此文供相关从业者参考。
值得注意的是,在数据工程领域全景图中,白鲸开源运营的开源项目Apache DolphinScheduler凭借其高扩展性、可视化DAG编排及对混合云环境的深度适配,持续领跑工作流编排领域,尤其在金融、制造业复杂任务调度场景中成为Airflow的有力竞争者。其社区活跃度与商业化成熟度显著提升,日均调度任务量突破千万级,助力企业实现DataOps全链路自动化。与此同时,白鲸开源运营的另一开源项目Apache SeaTunnel以批流一体引擎与超200种异构数据源的无缝集成能力,重塑数据集成范式,将传统ETL工具(如Nifi)的同步效率提升3倍以上,成为多云环境下数据迁移的首选方案。两大项目的卓越表现不仅印证了开源生态的技术韧性,更凸显了数据工程向低门槛、高弹性架构转型的核心趋势------实时流处理(Flink生态主导)、零磁盘存储架构(如Apache Iceberg)及单节点计算引擎(DuckDB崛起)正共同定义下一代数据基础设施的黄金标准。
引言
开源数据工程领域持续快速发展,2024年在存储、处理、集成和分析等方向均取得重大进展。
这是开源数据工程全景图的第二次年度发布,目标是识别并展示数据工程领域的关键活跃项目和核心工具,提供对这一动态生态系统的全面概览,并分析主要趋势与发展。
尽管全景图每年发布一次,其配套的GitHub仓库会全年持续更新。若发现遗漏内容,欢迎随时贡献补充。
工具选择标准
每个类别的开源项目数量庞大,难以涵盖所有工具。GitHub页面提供了更完整的工具列表,但年度全景图仅包含活跃项目,排除已停滞或成熟度不足的新项目。需要注意的是,部分入选工具可能尚未完全达到生产就绪状态,仍处于发展阶段。
下面是2025年开源数据工程全景图:
2025开源数据工程全景图
开源生态现状(2025年)
2024年开源数据工程生态显著增长,新增超50个工具,同时移除约10个不活跃或归档项目。尽管并非所有新增工具诞生于2024年,但它们代表了生态系统的关键扩展。
许可协议挑战与行业贡献
- 许可协议争议:Redis、CockroachDB、ElasticSearch、Kibana等老牌项目转向更封闭的许可协议(Elastic随后宣布回归开源)。
- 行业巨头贡献:Snowflake贡献Polaris、Databricks开源Unity Catalog、OneHouse捐赠Apache XTable、Netflix发布Maestro,彰显企业对开源的支持。
基金会动态
- Apache基金会:持续孵化前沿项目,包括Apache XTable(通用表格式)、Apache Amoro(湖仓管理)、Apache HoraeDB(时序数据库)、Apache Gravitino(数据目录)、Apache Gluten(中间件)和Apache Polaris(数据目录)。
- Linux基金会:托管Delta Lake、Amundsen、Kedro、Milvus、Marquez等明星项目,2024年新增vLLM(加州大学伯克利分校捐赠)和OpenSearch(从AWS移交)。
开源模式之争:Open Core vs Open Foundation
并非所有项目均为完全开源的中立工具。部分采用Open Core模式 (核心功能需付费),其可持续性面临挑战。相比之下,Open Foundation模式(开源软件作为商业化产品基础)可能成为未来主流,确保开源工具的生产就绪性。
九大核心分类概览
数据工程全景图划分为9大类别:
- 存储系统:OLTP、OLAP及专用存储引擎
- 数据湖平台:湖仓架构工具
- 数据处理与集成:批流处理框架与Python工具
- 工作流编排与DataOps:流水线编排与数据运营管理
- 数据集成:数据摄取与CDC工具
- 数据基础设施:容器编排与监控组件
- ML/AI平台:机器学习与向量数据库
- 元数据管理:数据目录与治理
- 分析与可视化:BI工具与可视化框架
以下为各领域关键进展分析:
1. 存储系统
2024年,存储系统在架构上取得了显著进展,特别是在OLAP数据库系统领域。
DuckDB在1.0版本发布后,成为嵌入式OLAP类别的主要成功案例。新的嵌入式OLAP系统如chDB(基于ClickHouse)、GlareDB和SlateDB的出现,反映了对轻量级分析处理能力的需求增长。
- OLAP扩展与HTAS架构 :
PostgreSQL生态涌现OLAP扩展(如MotherDuck的pg_duckdb、Crunchy Data的pg_parquet),将OLTP数据库升级为支持数据湖的HTAS(混合事务分析存储)系统。
- 零磁盘架构崛起 :
基于S3等远程存储的架构成为主流,SlateDB、Apache HoraeDB等新系统原生支持,Apache Doris、StarRocks等老牌系统2024年跟进。
- 其他亮点 :
- Redis闭源后,Valkey成为最受关注的开源替代品,获Google Memorystore和Amazon ElastiCache支持。
- PostgreSQL生态的Elasticsearch替代品ParadeDB、流式存储系统Proton和Fluss推动流批融合。
2. 数据湖平台
随着数据库先驱迈克尔·斯通布雷克(Michael Stonebraker)将湖仓架构和开放表格格式誉为 "下一个十年的OLAP数据库管理系统原型",数据湖仓(lakehouse)继续成为数据工程领域的热点话题。
开放表格格式的生态系统在2024年持续演进。第四种主要开放表格格式,Apache Paimon,从孵化阶段毕业,带来了与Apache Flink集成的流式湖仓能力。Apache XTable作为一个新项目,专注于双向格式转换,而Apache Amoro进入孵化阶段,提供湖仓管理框架。
在2024年,Apache Iceberg已确立其作为开放表格格式框架的领先地位,凭借其生态系统的扩展和GitHub仓库的指标,包括更高的星标、分叉、拉取请求和提交次数。
所有主要的SaaS和云供应商都在增强其平台,以支持对开放表格格式的访问。然而,写入支持相对较少,Apache Iceberg是全面CRUD(创建、读取、更新、删除)集成的首选。
谷歌的BigLake托管表,允许在客户管理的云存储中使用可变的Iceberg表,亚马逊新宣布的S3表,原生支持Iceberg,以及其他主要SaaS工具,如Redpanda推出的Iceberg主题和Crunchy Data Warehouse深度集成Apache Iceberg,都是Iceberg在生态系统中日益采用和深度集成的例子。
展望未来,像Apache XTable和Delta UniForm(Delta Lake Universal Format)这样的通用表格格式可能面临在各种格式之间功能潜在分歧的重大挑战,开放表格格式的命运可能类似于开放文件格式,当Parquet成为事实上的标准时。
随着湖仓生态系统的持续增长,采用可互操作的开放标准和框架的开放数据湖仓平台预计将获得更多的关注。
原生表数据库兴起
在数据湖生态系统中,一种新的趋势正在兴起,即开发原生的表格式库,这些库使用 Python 和 Rust 编程语言编写。这些库的目标是直接访问开放的表格式,而无需依赖像 Spark 这样重量级的框架。 一些值得关注的例子包括:
- Delta-rs:这是一个原生的 Rust 库,用于 Delta Lake,并提供了 Python 绑定。它允许开发者直接操作 Delta Lake 表,而无需依赖 Java 或 Apache Spark。
- Hudi-rs:这是 Apache Hudi 的原生 Rust 实现,同样提供了 Python API。它使 Python 和 Rust 生态系统中的开发者能够更轻松地访问 Hudi 表,而无需依赖 Apache Spark、Java 或 Hadoop。
- PyIceberg:这是一个正在发展的 Python 库,旨在增强对 Iceberg 表格式的访问能力,使其能够在默认的 Spark 引擎之外使用。
这些原生库的出现,为数据湖的开发和管理提供了更多选择,特别是在需要轻量级解决方案或跨语言开发的场景中。
- 数据处理与集成
单节点处理的崛起
单节点处理的崛起代表了数据处理的根本转变,向传统的分布式优先方法发起挑战。
最近的分析显示,许多公司高估了其大数据需求,促使重新评估其数据处理要求。即使在拥有大量数据的组织中,约90%的查询仍在可管理的工作负载范围内,可以在单台机器上运行,仅扫描最近的数据。
现代单节点处理引擎,如DuckDB、Apache DataFusion和Polars,已成为强大的替代方案,能够处理以前需要分布式系统(如Hive/Tez、Spark、Presto或Amazon Athena)的工作负载。
流处理
流处理生态系统在2024年持续扩展,Apache Flink进一步巩固了其作为首选流处理引擎的地位,而Apache Spark仍保持其强大的地位。
在庆祝其十周年之际,Flink发布了2.0版本,这是自Flink 1.0发布八年来的首次重大更新。Apache Flink生态系统显著扩展,引入了Apache Paimon开放表格格式和新开源的Fluss流处理引擎。2024年,领先的云供应商越来越多地将Flink集成到其托管服务中,最新的是谷歌的无服务器BigQuery引擎用于Apache Flink解决方案。
新兴的流处理引擎,如Fluvio、Arroyo和FastStream,努力与这些成熟的竞争者竞争。Fluvio和Arroyo作为唯一的基于Rust的引擎,旨在消除传统JVM基础的流处理引擎通常存在的开销。
在开源流处理领域的重大新闻中,Redpanda收购了Benthos.dev,并将其重新命名为Redpanda Connect,同时将其许可模式转变为更偏向专有许可。作为回应,WarpStream对Benthos项目进行了分叉,将其重命名为Bento,并承诺保持其100%的MIT开源许可。
Python处理框架
在Python数据处理生态系统中,Polars目前是占主导地位的高性能DataFrame库,适用于数据工程工作负载(不包括PySpark)。Polars在2024年达到了8900万次下载的显著里程碑,并发布了1.0版本。
然而,Polars现在面临来自DuckDB的DataFrame API的竞争,后者以其与外部存储系统的惊人简单集成和与Apache Arrow的零复制集成(不同系统之间的直接内存共享)引起了社区的关注。两者都在去年排名前1%的最受欢迎的Python库中。
Apache Arrow巩固了其作为Python数据处理生态系统中内存数据表示的事实标准的地位。该框架与各种Python处理框架(包括Apache DataFusion、Ibis、Daft、cuDF和Pandas 3.0)建立了深度集成。
Ibis和Daft是其他具有高潜力的创新DataFrame项目。Ibis提供了对各种基于SQL的数据库的无缝后端接口,而Daft提供了分布式计算能力,从一开始就支持分布式DataFrame处理。
- 工作流编排与DataOps
在2025年,开源工作流编排类别依然是数据工程生态系统中最有活力的部分之一,拥有超过10个活跃项目,从成熟的平台如Apache Airflow、Apache DolphinScheduler到新开源的引擎如Netflix的Maestro。
数据质量
Great Expectations继续作为领先的Python数据质量和验证框架,也被列入Databricks 2024年十大数据和AI产品榜单,紧随其后的是Soda和Pandera。然而,也有一些令人遗憾的消息:Data-Diff 项目已于 2024 年被其主要维护者 Datafold 存档。
数据版本控制
数据版本控制仍然是2024年的一个重要话题,努力将现代版本控制系统(如Git)的功能引入数据湖和湖仓。
像LakeFS和Nessie这样的项目,通过扩展事务性元数据层,增强了现代数据湖和开放表格格式(如Iceberg和Delta Lake)的功能。
数据转换
dbt在数据转换方面的应用范围正在扩大,超越了最初在数据仓库系统中的数据建模功能。
它现在通过新的集成和插件,利用Trino等短暂计算引擎,进入了数据湖等非仓库环境。
目前,dbt主要面临SQLMesh的竞争。
2024年,SQLMesh与dbt之间的竞争引起了广泛关注,Tobiko的首席执行官在社交媒体上声称,SQLMesh优秀到被dbt的Coalesce大会"禁用"!
- 数据集成
在数据集成领域,Airbyte保持领先地位,在为版本1.x做准备时,成功关闭了13,000个拉取请求。
dlt框架通过1.0版本的发布,展示了显著的成熟度,而Apache SeaTunnel作为一个有竞争力的替代方案,获得了越来越多的关注。
变更数据捕获(CDC)框架
CDC框架领域出现了新工具,包括Artie Transfer和PeerDB(被ClickHouse收购),同时,Flink CDC连接器在使用Flink作为主要流处理引擎的平台中获得了广泛采用。
事件中心(流式发布/订阅服务)
2024年,数据集成领域出现了显著的架构转变,即存储和计算的分离,以及采用零磁盘架构的对象存储。
WarpStream是实时流式领域中率先实现这一架构的先驱。
这种模型还使得灵活的"自带云"(BYOC)部署策略成为可能,因为计算和存储可以托管在客户首选的基础设施上,而服务提供商维护控制平面。
WarpStream的成功促使主要竞争者采用类似的架构。
Redpanda推出了Cloud Topics,增强了其产品线,而AutoMQ实施了混合方法,采用快速缓存层以提高I/O性能。
此外,StreamNative为Apache Pulsar推出了Ursa引擎,Confluent在2024年推出了自己的云原生Freight Clusters。
最终,Confluent决定收购WarpStream,进一步扩展其产品线,采用BYOC模型。
与此同时,Apache Kafka正处于可能定义其未来方向的关键时刻。
- 数据基础设施
2024年,数据基础设施领域保持稳定,Kubernetes在庆祝其十周年之际,继续领衔云环境中的资源调度和虚拟化引擎。
在可观察性领域,InfluxDB、Prometheus和Grafana继续占据主导地位,Grafana Labs通过一轮2.7亿美元的融资,巩固了其核心产品(如Grafana)作为通用可观察性解决方案的长期可行性。
- 机器学习/人工智能平台
向量数据库在2023年的强劲势头下,继续保持增长,Milvus成为领先者,其它项目包括Qdrant、Chroma和Weaviate。
该类别目前有十个活跃的向量数据库项目,反映了向量搜索能力在现代AI驱动的数据架构中的重要性。
本年度,LLMOps(也称为GenOps)作为一个独立类别出现,标志着Dify和vLLM等新项目的快速增长,专注于管理LLM模型。
- 元数据管理
元数据管理平台近年来获得了显著进展,DataHub通过积极的开发和社区参与,继续在开源领域保持领先地位。
然而,2024年在目录管理方面出现了最显著的发展。
与前几年不同,2024年市场上涌现出一波新的开放目录解决方案,包括Snowflake开源的Polaris、Databricks开源的Unity Catalog、LakeKeeper和Apache Gravitino。
这种繁荣反映了新兴的数据湖仓平台,依赖于开放表格格式,缺乏内置的高级目录管理功能,以实现多引擎的无缝互操作性。
所有这些项目都有潜力建立新的标准,成为数据湖仓平台中供应商中立的开放目录服务。
就像Hive Metastore曾成为Hadoop平台的事实标准一样,这些新兴的目录可能最终取代Hive Metastore在开放数据平台上的长期主导地位。
- 分析与可视化
在开源商业智能领域,Apache Superset和Metabase仍然是领先的BI解决方案。
虽然Superset在GitHub上更受欢迎,但Metabase的开发活动更为活跃。
Lightdash作为一个有前途的新兴工具,获得了1100万美元的融资,展示了市场对轻量级BI解决方案的需求。
BI即代码解决方案
BI即代码作为一个独特的类别出现,受到Streamlit持续成功的推动,Streamlit保持其作为最受欢迎的BI即代码解决方案的地位。
这些工具使开发者能够使用代码、SQL和模板(如Markdown或YAML)创建交互式应用和轻量级BI仪表板,将软件工程的最佳实践,如版本控制、测试和CI/CD,融入到仪表板开发工作流中。
除了广为人知的 Streamlit 和 Evidence 之外,像 Quary 和 Vizro 这样的新入者也逐渐崭露头角。其中,Quary 特别引人注目,因为它采用了基于 Rust 的开发方式,这与该领域常见的以 Python 为中心的模式有所不同。
可组合BI堆栈
系统解耦的演变不仅限于存储系统;它还影响了商业智能(BI)堆栈。一种新兴趋势是将轻量级、无后端服务器的BI工具与无头嵌入式OLAP解决方案(如Apache DataFusion、Apache Arrow和DuckDB)相结合。
这种集成解决了开放源BI堆栈中的一些空白,例如原生查询外部数据湖和湖仓的能力,同时保持轻量级、解耦的架构的优势。
像Omni、GoodData、Evidence和Rilldata这样的BI产品,已经将这些引擎集成到其BI和数据探索工具中。
Apache Superset(使用duckdb-engine库)和Metabase现在也支持嵌入式DuckDB连接。
MPP查询引擎
在后Hadoop时代,开源MPP(大规模并行处理)系统的创新和引入相对较少,而现有引擎继续成熟。
虽然Hive的份额在下降,但Presto和Trino仍然是生产中使用的主要开源MPP查询引擎,尽管面临着Spark作为统一引擎,以及Databricks、Snowflake和AWS Redshift Spectrum等托管云MPP产品的激烈竞争。
未来展望与结论
开源数据生态系统正进入一个成熟阶段,关键领域如数据湖仓,其特征是围绕经过验证的技术的整合和对操作效率的更大关注。
该领域继续朝着云原生、可组合架构方向发展,同时围绕主导技术进行标准化。
需要关注的关键领域包括:
- 开放表格格式领域的进一步整合
- 实时和事务性系统中零磁盘架构的持续演变
- 提供统一湖仓体验的追求
- LLMOps和AI工程的崛起
- 数据湖仓生态系统在开放目录集成和本地库开发等领域的扩展
- 单节点数据处理和嵌入式分析的日益关注
原文链接:https://www.pracdata.io/p/open-source-data-engineering-landscape-2025
本文由 白鲸开源科技 提供发布支持!