加载中
Cloud Shuffle Service 在字节跳动 Spark 场景的应用实践

本文整理自字节跳动基础架构的大数据开发工程师魏中佳在 ApacheCon Aisa 2022 「大数据」议题下的演讲,主要介绍 Cloud Shuffle Service(CSS) 在字节跳动 Spark 场景下的设计与实现。 作者...

免费公测|火山引擎云原生消息引擎公测正式开启!

随着各行业数字化转型建设速度加快,在数据集成和系统整合方面,海量数据针对规模、流转效率、成本节约等方面的需求日益增长,对消息系统的要求也越来越高。 字节跳动内部业务的高速增长,对...

演讲预告|字节跳动 Hadoop 云原生化演进实践

Hadoop 是 Apache 基金会旗下知名基础架构开源项目。作为国内少见的 Hadoop 开源生态技术峰会,第四届 China Apache Hadoop Meetup 将于 2022年9月24日在上海举办。本届峰会以“云数智聚 砥柱...

打造通用缓存层:字节跳动 Flink StateBackend 性能提升之路

内容简介:StateBackend 作为 Flink 向上提供 State 能力的基石,其性能会严重影响任务的吞吐。本次分享主要介绍在字节跳动内部通过为 StateBackend 提供通用缓存层,来提高性能的相关优化。...

Flink OLAP 助力 ByteHTAP 亮相数据库顶会 VLDB

2022 年 9 月 5 日至 9 月 9 日,VLDB 2022 在澳大利亚悉尼举行。 字节跳动基础架构研究成果《 ByteHTAP : ByteDance’s HTAP System with High Data Freshness and Strong Data Consistenc...

Flink 流批一体在字节跳动的探索与实践

背景 字节跳动旗下拥有今日头条、抖音等多款产品,每天服务着数亿用户,由此产生的数据量和计算量也是很大的: EB 级别海量的存储空间 每天平均 70PB 数据的增量 每秒钟百万次数的实时推荐请...

字节跳动 Flink 基于 Slot 的资源管理实践

总体介绍 众所周知,Flink 在提交和运行 Flink 作业时,需要配置 Flink 资源信息,包括 TaskManager 的数量,每个 TaskManager 的 CPU 数、内存大小以及 Slot 数量。TaskManager 的数量,每个...

字节跳动开源自研 Shuffle 框架——Cloud Shuffle Service

今天,字节跳动宣布,正式开源 Cloud Shuffle Service。 Cloud Shuffle Service(以下简称CSS) 是字节自研的通用 Remote Shuffle Service 框架,支持 Spark/FlinkBatch/MapReduce 等计算引擎...

9年演进史:字节跳动 10EB 级大数据存储实战

背景 HDFS 简介 HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项: 和本地文件系统一样的...

免费公测|火山引擎大数据文件存储公测现已开启!

在云计算、人工智能、物联网等技术发展迅速的今天,海量数据的规模化增长成为常态。当前行业通用的存储方案也面临巨大挑战。而随着云原生的逐渐兴起,原有的存算一体架构越来越多地暴露出弊端...

5年迭代5次,抖音推荐系统演进历程

2021 年,字节跳动旗下产品总 MAU 已超过 19 亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下,强大的推荐系统显得尤为重要。Flink 提供了非常强大的 SQL 模块和有状态计算模块。...

演讲汇总 | 字节跳动云原生大数据的探索与实践

全球数字经济进入高速发展期,已经成为推进经济发展的新增长极。云原生技术作为下一代云计算的技术内核,在加快推进各产业数字化转型中发挥着重要作用,云原生大数据技术产品也逐步迭代升级,...

字节跳动 Flink 状态查询实践与优化

背景 众所周知,Flink 中的 State 保存了算子计算过程的中间结果。当任务出现异常时,可以通过查询任务快照中的 State 获取有效线索。 但目前对于 Flink SQL 任务来说,当我们想要查询作业 ...

字节跳动10万节点 HDFS 集群多机房架构演进之路

背景 现状 HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS ...

招聘|字节跳动云原生计算,期待你的加入

团队介绍 字节跳动云原生计算团队支持字节今日头条、抖音、西瓜视频、幸福里、飞书等各条业务线,为离线 ETL & 机器学习、AML、推荐、数仓、搜索、广告、流媒体、安全和风控等核心业务场景和...

字节跳动 Flink 单点恢复功能及 Regional CheckPoint 优化实践

单点恢复机制 在字节跳动的实时推荐场景中,我们使用 Flink 将用户特征与用户行为进行实时拼接,拼接样本作为实时模型的输入。拼接服务的时延和稳定性直接影响了线上产品对用户的推荐效果,而...

字节跳动基于 Iceberg 的海量特征存储实践

背景 字节跳动特征存储痛点 当前行业内的特征存储整体流程主要分为以下四步: 特征存储的整体流程 业务在线进行特征模块抽取; 抽取后的特征以行的格式存储在 HDFS,考虑到成本,此时不存储原...

字节跳动使用 Flink State 的经验分享

前言 Flink 作业需要借助 State 来完成聚合、Join 等有状态的计算任务,而 State 也一直都是作业调优的一个重点。目前 State 和 Checkpoint 已经在字节跳动内部被广泛使用,业务层面上 Stat...

字节跳动的 Flink OLAP 作业调度和查询执行优化实践

一、背景 字节跳动内部有很多混合计算的需求,需要一套既支持 TP 计算,也支持 AP 计算的系统。下图是字节跳动 HTAP 系统的总体架构。系统使用内部自研的数据库作为 TP 计算引擎,使用 Flin...

亿级用户背后的字节跳动云原生计算最佳实践

互联网时代数据出现爆发式增长,数字化、实时化的趋势也明显加快。基于数据驱动的业务场景不断涌现,无一不在加速着大数据的繁荣发展。而随着云原生概念的兴起,大数据技术产品逐步迭代升级,...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部