喜讯!火山引擎 Flink、Spark 产品通过信通院可信大数据能力评测

原创
2023/01/06 16:09
阅读数 165
1月4日,在第五届“数据资产管理大会”上,中国信息通信研究院(中国信通院)公布了第十五批“可信大数据”产品能力评测结果。 火山引擎 流式计算 Flink 版 火山引擎 批式计算 Spark 版 凭借出色的基础能力、优秀的性能和稳定性及安全能力,分别通过 分布式 流处理 平台基础能力评测 分布式 批处理 平台基础能力评测
 
“可信大数据”产品能力评测旨在从基础能力、性能、稳定性、安全能力等维度对企业级大数据产品展开全方位的评测。自2014年以来,已成为我国大数据领域供给侧产品研发和需求侧采购选型的风向标。
       
 

流式计算 Flink 版

火山引擎流式计算 Flink 版依托于字节跳动在 业内 最大规模实时计算集群 实践。火山引擎流式计算 Flink 版基于火山引擎容器服务(VKE/VCI),提供 Serverless 极致弹性,是开箱即用的全托管流式计算引擎。在100%兼容开源 Flink 的前提下,对产品功能也进行了企业级增强。此外,流式计算 Flink 版 支持云中立模式,支持公有云、混合云及多云部署,全面贴合企业上云策略。
  • 开发效率提升。流式计算 Flink 版支持算子级别 Debug 输出、Queryable State、Temporal Table Function DDL,在开发效率上对开源版本 Flink 有显著提升。
  • 可靠性提升。流式计算 Flink 版针对单个 Task 进行 Checkpoint,提高了大并发下的 Checkpoint 成功率。单点任务恢复和节点黑名单机制功能,保障了对故障节点的快速响应,避免业务整体重启。
流式计算 Flink 版 - 产品功能架构
 

典型的多维实时场景支持

当前业界通常把 Flink 引擎定义为实时场景下的行业标准解决方案。同样,经过企业级功能增强后的火山引擎流式计算 Flink 版可以支持典型的多维实时场景。
  1. 实时 ETL 场景。提供丰富的内置 Connector,全面支持各种数据源及存储,企业级 SQL 能力高效构建实时数据处理平台;
  2. 实时监控场景。可提供状态管理等支持,内置 CEP 复杂事件处理模块,协助企业简化规则告警配置、降低监测平台维护成本;
  3. 实时 数仓 场景。支持海量数据实时处理和高并发实时入仓,协助企业建立数字化运营体系,为经营决策提供实时数据支持;
  4. 实时推荐场景。具备实时样本拼接能力,通过实时模型训练,创建实时增量模型,为客户提供更加精准和实时的推荐能力。

业内最大规模实时计算集群最佳实践

在字节跳动内部, 抖音 / 头条 / 穿山甲 等业务的广告推荐以及 模型训练都深度使用了流式计算 Flink 版提供的流式计算引擎能力。
在流式训练方面,流式计算 Flink 版支持数据预处理、样本拼接、特征和稳定性指标的更新,为推荐效果的实时性和稳定性提供了有力保障。
在模型训练方面,流式计算 Flink 版支撑了推荐算法模型的核心训练任务,帮助模型及数据流快速迭代,提升模型稳定性,从而更好地协助业务团队助力广告主投放与媒体变现能力的增长。
 

批式计算 Spark 版

火山引擎批式计算 Spark 版支持了今日头条、抖音的超大规模批计算,提供面向深度学习场景的深度优化。在100%兼容 Apache Spark 的同时,实现企业级功能增强,配备 火山引擎独有的 Cloud Shuffle Service 以保障 Spark 的作业性能和稳定性。批式计算 Spark 版提供租户级端到端安全隔离,具备基于火山引擎 VKE/VCI 的 Serverless 极致弹性扩展能力。批式计算 Spark 版同样 支持支持 公有云 混合云 及多云部署
批式计算 Spark 版 - 产品功能架构
 

覆盖流批一体和深度学习场景

  • 流批一体 数据处理场景。火山引擎批式处理 Spark 可提供 Streaming/Batch 流批一体的数据处理能力,同时提供结构化、半结构化数据支持,支持丰富的上下游数据源与数据存储。
  • 云原生 数据湖 场景。通过字节增强版 Iceberg 提供服务化的云原生数据湖平台:支持 Schema 校验、数据 Time-Travel、小文件自动优化、 ACID 事务性、Merge on Read 等功能。
  • 深度学习场景。提供火山引擎自研通用深度学习框架和 Feature Store 服务,高效支持大规模分布式深度学习训练。端到端大数据 AI 一体化服务,提供一站式大数据+AI 解决方案。
 

字节跳动批式计算应用的最佳实践

目前字节跳动内部数据仓库都是基于 Spark 来构建,包括今日头条、抖音等业务的超大规模批计算作业。火山引擎批式计算 Spark 承载了字节跳动内部大部分 离线 ETL 的海量数据处理任务,帮助内部用户高效构建离线数仓;同时也给 BI 分析师等业务方提供基于 Spark 的 Ad-Hoc 查询服务。
在穿山甲等相关业务的 机器学习场景下,特征工程是机器学习领域中重要一环。火山引擎 Spark 承担了特征提取、离线调研、训练预处理等相关工作。
 
欢迎关注「字节跳动云原生计算」公众号,后台回复加入技术交流群,参与技术交流,了解更多信息!
展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部