加载中
Arctic 自动优化湖仓原理解析

Arctic 是一个开放式架构下的湖仓管理系统,在开放的 lceberg 数据湖格式之上, 提供更多面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。 背景 湖数据与数据仓库都是常...

多点DMALL × Apache Kyuubi:构建统一SQL Proxy探索实践

伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。 ...

网易传媒基于 Arctic 的低成本准实时计算实践

网易传媒大数据实际业务中,存在着大量的准实时计算需求场景,业务方对于数据的实效性要求一般是分钟级;这种场景下,用传统的离线数仓方案不能满足用户在实效性方面的要求,而使用全链路的实...

Apache Kyuubi 在B站大数据场景下的应用实践

01 背景介绍 近几年随着B站业务高速发展,数据量不断增加,离线计算集群规模从最初的两百台发展到目前近万台,从单机房发展到多机房架构。在离线计算引擎上目前我们主要使用Spark、Presto、H...

Arctic 基于 Hive 的流批一体实践

背景 随着大数据业务的发展,基于 Hive 的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面 Hudi,Iceberg 这类系统在事务性,...

SparkSQL on K8s 在网易传媒的落地实践

随着云原生技术的发展和成熟,大数据基础设施积极拥抱云原生是业内发展的一大趋势。网易传媒在2021年成功将SparkSQL部署到了K8s集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了...

2022/10/17 14:08
3.3K
基于Impala的高性能数仓实践之物化视图服务

本文将主要介绍NDH Impala的物化视图实现。 接上篇,前两篇分别讲了执行引擎和虚拟数仓,它们是让一个SQL又快又好地执行的关键。但如果某些SQL过于复杂,比如多张大表进行Join并有大量的聚合...

2022/10/12 15:28
1.6K
Apache Kyuubi 高可用的云原生实现

本文作者为中国移动云能力中心大数据团队软件开发工程师洪冬冬,文章主要介绍了 Apache Kyuubi 基于 Apache ZooKeeper 实现高可用的原理,以及在云原生场景下,利用现有的组件和技术实现云原...

2022/09/30 09:24
1.8K
【直播预告】Apache Kyuubi新特性解读及互联网/金融行业实践

Apache Kyuubi ( Incubating ) 是一个 Thrift JDBC / ODBC 服务,目前对接 Apache Spark / Flink / Hive / Doris 计算引擎以及 Trino ( Presto ) 查询引擎,支持多租户和分布式等特性,可以满...

2022/09/30 09:17
664
Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践

分享嘉宾:孙方彬 中国移动云能力中心 软件开发工程师 编辑整理:Hoh Xil 出品平台:DataFunTalk 导读:在云原生+大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数...

2022/09/06 09:49
2.6K
Apache Kyuubi 在小米大数据平台的应用实践

导读:今天分享的主题是《Kyuubi 在小米大数据平台的应用实践》,主要分为四部分内容: Kyuubi 在小米的落地过程 打造易用和高可用的 Kyuubi 服务 基于 kyuubi 的改进 kyuubi的一些新特性在业...

基于Impala的高性能数仓建设实践之虚拟数仓

导读: 本文主要介绍网易数帆NDH在Impala上实现的虚拟数仓特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充分利用节点资源...

2022/08/19 16:40
1.6K
开源流式湖仓服务Arctic详解:并非另一套Table Format

本文根据作者于Arctic开源发布会演讲内容整理(略有删减),系统解读Arctic项目研发初衷、生态定位、核心特性、性能表现及未来规划。 首先感谢大家参与我们Arctic开源发布会。我是马进,网易...

2022/08/18 09:23
2.8K
从 Delta 2.0 开始聊聊我们需要怎样的数据湖

盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道。 虽然 Databricks 的工程师反复强调性能测...

携程 Spark 多租户查询服务演进,Apache Kyuubi 未来可期

当我们开始把大多数在 Hive 的查询和 ETL 作业迁移到 Spark,面临的几个问题是如何透明迁移 HiveServer2 服务以及如何保证稳定性。 与 HiveServer2 对应的 Spark Thrift Server 是 Apache S...

2022/07/21 16:07
5K
Apache Kyuubi 在爱奇艺的实践:加速 Hive SQL 迁移 Spark

Hive 作为爱奇艺数仓的基础,Hive SQL 是爱奇艺大数据平台目前主要的数处理工具,各个业务积累大量的 Hive ETL 任务。Spark 相对于 MapReduce 有着更为灵活的的计算模型,这使得 Spark 相对于...

T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践

在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上,T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3出行高级大数据工程师李心恺共同分享了 Apache Kyuubi(Incubating) 在T3出...

eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践

本文来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享,介绍了Apache Kyuubi(Incubating)的基本架构和使用场景,eBay基于自身的需求对K...

Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一。它擅长于批处理和实时流处理,并支持机器学习、人工智能、自然语言处理和数据分析应用。随着 Spark 越来越受欢迎,使用量越来...

Apache Kyuubi Committer VinoYang: 展望 Flink SQL Engine

Apache Kyuubi 新晋 Committer VinoYang,为我们带来了参与大数据开源社区的心路历程,以及对 Kyuubi Flink SQL Engine 的展望。 大家好,我是杨华(VinoYang),是 Apache Kyuubi的新晋 Co...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部