加载中
从源码看Spark读取Hive表数据小文件和分块的问题

使用Spark进行数据分析和计算早已成趋势,你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题,而之前对此有些模糊,所以做了些整理,希望大家拍...

DataNode磁盘平衡器[代码分享]

当现有HDFS遇到存储空间瓶颈时,我们可以通过往DN上加磁盘来缓解,而由于DN上的原有磁盘数据快满,新加的磁盘又是空的,就导致磁盘间的数据不平衡。在Hadoop3.0里,提供了disk-balancer工具用...

ClassLoader和双亲委派机制

前言:网上关于类加载器讲解的文章特别多,在学习的时候让我受益匪浅,某段时间觉得自己懂了。但是在昨天遇到一个问题,并去看Spark关于用户类加载的时候,它实现的类加载器让我看的很疑惑,...

从源码角度对比Yarn下的App对任务失败的控制

在Yarn/MRV2/Spark里都有任务失败再重试的设置,Yarn作为资源管理框架,而MRV2/Spark作为计算框架,它们的失败重试有什么不同? 有哪些参数来控制失败重试? Spark on Yarn的时候参数又有什么...

从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)...

浅析Impala——了解它的基本结构

Impala在即席查询上非常有优势,相比于龟速般的Hive,集群上线Impala后简单的即席查询快到飞起,虽然语法上没有Hive的丰富和顺手,但是对于一些基本的查询来说,它完全能胜任而且做得更好。I...

你想了解的Hive Query生命周期--钩子函数篇!

一个Hive SQL语句的执行需要经历哪些阶段? 在这些阶段中,我们可以做哪些事来影响它? Hive为我们提供了很多的钩子函数,我们可以怎样利用它为Hive实现扩展?

Spark UDTF 与 输出多列的UDF小笔记

从Spark 1.3.0开始的explode就是一个UDTF,到1.6.0里广泛使用的json_tuple也是一个UDTF,但是目前的版本里面并没有提供给用户自己实现UDTF的方式... 那么如果一个UDF想要输出多个Column该怎么...

Spark UDF变长参数的二三事儿

在复杂业务逻辑中,我们经常会用到Spark的UDF,当一个UDF需要传入多列的内容并进行处理时,UDF的传参该怎么做呢? 下面通过变长参数引出,逐一介绍三种可行方法以及一些不可行的尝试......

Hive map阶段优化之一次详细的优化分析过程

Hive的优化是一个非常复杂的问题,需要考虑到HQL、业务、数据、集群状况、配置等等... 不同的问题有不同的答案,不同的语句有不同的优化技巧。这里是我遇到的一个Hive Map阶段异常缓慢的问题...

Hive源码编译及阅读修改调试

Hive是在数仓中用到的最重要的组件之一,难免会对其进行定制化修改... 在改源码到应用源码的路上,源码编译和源码调试以及打包应用必不可少,在我自己改源码的过程中走了些弯路,于是把基本操...

也说Hadoop敏感信息加密方案的尝试(下)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

也说Hadoop敏感信息加密方案的尝试(上)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

由sqlContext.implicits._带来的一场血案

Spark里的隐式转换$操作符,StringContext的特殊性及扩展

Spark,Hive,HBase相互结合--数据读取和计算的几种方式

数据存储选择HBase时,基于HBase底层数据做数据分析,其列的映射和处理是比较麻烦的,那一般都有哪些方式呢? 好用的和不好用的,适用的范围都有哪些?

没有更多内容

加载失败,请刷新页面

返回顶部
顶部