Spark SQL 在字节跳动的优化实践

以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀,《字节跳动在Spark SQL上的核心优化实践》。 PPT 请微信关注过往记忆大数据,并回复 bd_sparksql 获取。 今天的分享分为三个部分,第一...

Spark
2019/12/03
0
0
剖析Hadoop和Spark的Shuffle过程差异(二)

上一篇博客《剖析Hadoop和Spark的Shuffle过程差异(一)》剖析了Hadoop MapReduce的Shuffle过程,那么本篇博客,来聊一聊Spark shuffle。 Spark shuffle相对来说更简单,因为不要求全局有序,...

冷血狂魔
2019/03/12
300
0
SparkRDMA:使用RDMA技术提升Spark的Shuffle性能

文章目录 1 Spark Shuffle 基础 2 RDMA 技术 3 SparkRDMA 4 安装使用 5 关于配置libdisni.so Spark Shuffle 基础 在 MapReduce 框架中,Shuffle 是连接 Map 和 Reduce 之间的桥梁,Reduce 要...

Spark
2017/11/15
0
0
【问题】Kylin Step 10 Build Cube失败

build cube任务过程中,执行到step 10任务失败,原因是配置kylin的执行MR任务的资源不足 任务进行到第十步骤,失败。具体原因查找 1、查看Parameters 2、查看MRJob日志,发现问题所在 2017-0...

巧克力黒
2017/03/16
0
0
Apache Spark SQL自适应执行实践

本文作者:汪愈舟 俞育才 郭晨钊 程浩(英特尔),李元健(百度) Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的...

Spark
2018/01/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多