Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

原创
2023/01/14 21:05
阅读数 209

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自去年发布云版公测以来,吸引了近万名用户的注册使用。应社区用户上生产系统的要求,Tapdata Cloud 3.0 将正式推出商业版服务,提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域,核心场景包括以下几大类:

  • 实时数据库同步,如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等
  • 数据入湖入仓,或者为现代数据平台供数,如:
    • 常规 ETL 任务(建宽表、数据清洗、脱敏等)
    • 为 Kafka/MQ/Bitsflow 供数或下推

具体场景则数不胜数,值此之际,我们将以系列文章形式,为大家盘点 Tapdata Cloud 可以支撑的业务场景和 3.0 版本新特性,以便大家更好在业务中应用 Tapdata。本期为系列文章第四弹,将以 MySQL → Doris 的数据同步任务为例,介绍 Tapdata Cloud 如何简化数据实时入湖入仓,让业务系统的数据变动稳定连续地实时复制到数据湖或数仓,为实时分析提供新鲜的原始数据。(点击申请产品内测,抢先体验 →

数据量走向爆炸的这些年,企业通过对业务数据的采集与分析使用,逐步将其转化为可用的信息和可操作的见解,反哺业务优化的方方面面。但如果直接从业务数据库中抽取数据进行分析,则往往需要面临结构复杂、数据脏乱、难以理解、缺少历史,以及大规模查询缓慢等实际操作问题。在这样的背景下,搭建面向分析需求的数据仓库也就成了非常常见的解决方案,并发展为数据整合及处理的核心。

然而随着数据体量越来越庞大,时效性要求越来越高,业务侧、运营侧的需求也日趋多样,传统数仓的技术架构已然无法满足企业真实场景下的应用需要。新型数据仓库平台架构、数据湖技术、湖仓一体的新数据平台,以及云数仓等更多选型不断涌现。其中,基于 Apache Doris 构建的湖仓架构设计方案,凭借其灵活的查询模型、极低的运维成本、短平快的开发链路以及优秀的查询性能等优势,成为众多企业探索或优化湖仓建设更加青睐的选择。

一、Apache Doris:数据湖、仓场景下的核心优势

作为一款基于 MPP 架构的高性能、实时的分析型开源数据库,Apache Doris 主打极速易用,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景,例如报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等。在湖仓场景下,具备以下核心优势:

-性能突出:依托列式存储引擎、现代的 MPP 架构、向量化查询引擎、预聚合物化视图、数据索引的实现,在低延迟和高吞吐查询上,都达到了极速性能

  • 简单易用:部署只需两个进程,不依赖其他系统;在线集群扩缩容,自动副本修复;兼容 MySQL 协议,并且使用标准 SQL
  • 统一数仓:单一系统,可以同时支持实时数据服务、交互数据分析和离线数据处理场景
  • 联邦查询:支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析
  • 多种导入:支持从 HDFS/S3 等批量拉取导入和 MySQL Binlog/Kafka 等流式拉取导入;支持通过 HTTP 接口进行微批量推送写入和 JDBC 中使用 Insert 实时推送写入

二、Tapdata Cloud:如何优化数据入湖入仓架构?

传统数据入湖入仓架构,一般存在全量、增量链路分离;链路长且复杂,维护困难;依赖离线调度分析,延时较大等缺陷。面对这些问题,作为一款开箱即用的实时数据服务,Tapdata Cloud 基于自身技术优势,为新一代数据入湖入仓架构提供了更具实践价值的解题思路——链路更短、延迟更低、更易维护和排查。(功能体验指路:Tapdata Cloud 3.0 现已开放内测通道

借助 Tapdata Cloud 全量增量一体的实时同步能力,可以实现极简的数据入湖入仓架构——读取源库的全量和增量数据,直接复制并更新入数据仓库。这一优化一方面极大降低了对源库的影响,保障了企业自身业务的稳定性;另一方,极大提升了数据交付速度,助力企业以连续的方式将业务系统的数据变动实时复制到数据湖或数仓,为实时分析提供新鲜的原始数据。在这个过程中,Tapdata 展现出的核心亮点包括:

  • 全链路实时 基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。

  • 对源库几乎无影响 基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。

  • 可视化任务运行监控和告警 实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。

  • 数据一致性保障 通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。

  • 内置 50+ 数据连接器,稳定的实时采集和传输能力 以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置50+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。

三、操作演示:以 MySQL → Doris 为例

👆👆戳这里, 查看完整操作流程演示

① 创建数据源 MySQL 的连接

② 创建数据目标 Doris 的连接

③ 创建数据复制任务

④ 任务监控

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部