加载中
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进

本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。 前言 自适应查询优化(Adaptive Query Execution, AQE) 是 Spark 3....

拥抱开源,我们是认真的-网易易数2020年Apache Spark贡献总结

开源软件正在吞噬世界,在未来,没有一家企业能够脱离它们,也不可能存在一家企业能够脱离开源的开发协作方式,也没有一家企业会拒绝这种本质上是双赢的局面。本文来自网易数帆旗下网易易数研...

全票通过!网易数帆开源项目Kyuubi进入Apache孵化器

北京时间2021年6月21日,全球顶级开源组织Apache基金会宣布,网易数帆开源的大数据项目Kyuubi以全票通过的表现,正式进入Apache基金会孵化器。 根据投票结果,Kyuubi获得了13个约束性投票(bi...

网易数帆开源Kyuubi:基于Spark的高性能JDBC和SQL执行引擎

Kyuubi是网易数帆旗下易数大数据团队开源的一个高性能的通用JDBC和SQL执行引擎,建立在Apache Spark之上。通过Kyuubi,用户能够像处理普通数据一样处理大数据。本文将详细解读Kyuubi的架构设...

从 Delta 2.0 开始聊聊我们需要怎样的数据湖

盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道。 虽然 Databricks 的工程师反复强调性能测...

SparkSQL on K8s 在网易传媒的落地实践

随着云原生技术的发展和成熟,大数据基础设施积极拥抱云原生是业内发展的一大趋势。网易传媒在2021年成功将SparkSQL部署到了K8s集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了...

Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一。它擅长于批处理和实时流处理,并支持机器学习、人工智能、自然语言处理和数据分析应用。随着 Spark 越来越受欢迎,使用量越来...

Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践

分享嘉宾:孙方彬 中国移动云能力中心 软件开发工程师 编辑整理:Hoh Xil 出品平台:DataFunTalk 导读:在云原生+大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数...

Apache Kyuubi on Spark 在CDH上的深度实践

Kyuubi 是网易数帆主导开源的大数据项目,于2021年6月全票通过进入世界顶级开源基金会 Apache Software Foundation 孵化器。Kyuubi 的一个典型使用场景,是替换 HiveServer2,轻松获得 10~1...

大数据实战:Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆旗下易数大数据团队开源的 Kyuubi,和 Spark 社区的Spark Thrift Server,都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项目。本文从企业大数据应用场景关注的问题出发...

Apache Kyuubi 在爱奇艺的实践:加速 Hive SQL 迁移 Spark

Hive 作为爱奇艺数仓的基础,Hive SQL 是爱奇艺大数据平台目前主要的数处理工具,各个业务积累大量的 Hive ETL 任务。Spark 相对于 MapReduce 有着更为灵活的的计算模型,这使得 Spark 相对于...

基于Impala的高性能数仓实践之物化视图服务

本文将主要介绍NDH Impala的物化视图实现。 接上篇,前两篇分别讲了执行引擎和虚拟数仓,它们是让一个SQL又快又好地执行的关键。但如果某些SQL过于复杂,比如多张大表进行Join并有大量的聚合...

Apache Kyuubi Committer VinoYang: 展望 Flink SQL Engine

Apache Kyuubi 新晋 Committer VinoYang,为我们带来了参与大数据开源社区的心路历程,以及对 Kyuubi Flink SQL Engine 的展望。 大家好,我是杨华(VinoYang),是 Apache Kyuubi的新晋 Co...

Arctic 基于 Hive 的流批一体实践

背景 随着大数据业务的发展,基于 Hive 的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面 Hudi,Iceberg 这类系统在事务性,...

携程 Spark 多租户查询服务演进,Apache Kyuubi 未来可期

当我们开始把大多数在 Hive 的查询和 ETL 作业迁移到 Spark,面临的几个问题是如何透明迁移 HiveServer2 服务以及如何保证稳定性。 与 HiveServer2 对应的 Spark Thrift Server 是 Apache S...

Spark + Kyuubi + Iceberg = Lakehouse

Spark 开源地址:https://spark.apache.org/ 开源的、强大的计算引擎。 官网下载Release,比如:Spark 3.1.2 进入解压目录,运行: sbin/start-master.sh 启动 Spark Master 运行: sbin/star...

Apache Kyuubi:灵活运用引擎隔离共享,加速即席查询,支持大规模 ETL

Kyuubi 简介 Apache Kyuubi (Incubating)是一个 Thrift JDBC/ODBC 服务,目前对接了 Apache Spark 计算框架,支持多租户和分布式等特性,可以满足企业内诸如 ETL、BI 报表等多种大数据场景...

Apache Kyuubi 在网易的深度实践

分享的内容主要包括三个内容: 1) Apache Kyuubi (Incubating) (以下简称Kyuubi)是什么?介绍Kyuubi的核心功能以及Kyuubi在各个使用场景中的解决方案; 2) Kyuubi在网易内部的定位、角色和...

Apache Kyuubi 在B站大数据场景下的应用实践

01 背景介绍 近几年随着B站业务高速发展,数据量不断增加,离线计算集群规模从最初的两百台发展到目前近万台,从单机房发展到多机房架构。在离线计算引擎上目前我们主要使用Spark、Presto、H...

网易传媒基于 Arctic 的低成本准实时计算实践

网易传媒大数据实际业务中,存在着大量的准实时计算需求场景,业务方对于数据的实效性要求一般是分钟级;这种场景下,用传统的离线数仓方案不能满足用户在实效性方面的要求,而使用全链路的实...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部