加载中
DataNode磁盘平衡器[代码分享]

当现有HDFS遇到存储空间瓶颈时,我们可以通过往DN上加磁盘来缓解,而由于DN上的原有磁盘数据快满,新加的磁盘又是空的,就导致磁盘间的数据不平衡。在Hadoop3.0里,提供了disk-balancer工具用...

从源码角度对比Yarn下的App对任务失败的控制

在Yarn/MRV2/Spark里都有任务失败再重试的设置,Yarn作为资源管理框架,而MRV2/Spark作为计算框架,它们的失败重试有什么不同? 有哪些参数来控制失败重试? Spark on Yarn的时候参数又有什么...

从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)...

浅析Impala——了解它的基本结构

Impala在即席查询上非常有优势,相比于龟速般的Hive,集群上线Impala后简单的即席查询快到飞起,虽然语法上没有Hive的丰富和顺手,但是对于一些基本的查询来说,它完全能胜任而且做得更好。I...

你想了解的Hive Query生命周期--钩子函数篇!

一个Hive SQL语句的执行需要经历哪些阶段? 在这些阶段中,我们可以做哪些事来影响它? Hive为我们提供了很多的钩子函数,我们可以怎样利用它为Hive实现扩展?

Kerberos的那些报错汇总

本文记录了在使用Kerberos过程中遇到的一些问题,后续有新的问题会再添加。在Hadoop集群环境中,搭建KDC和启用Kerberos比较简单,本文不做描述,只是罗列了一些可能问题,做抛砖引玉之用,欢...

Spark UDF变长参数的二三事儿

在复杂业务逻辑中,我们经常会用到Spark的UDF,当一个UDF需要传入多列的内容并进行处理时,UDF的传参该怎么做呢? 下面通过变长参数引出,逐一介绍三种可行方法以及一些不可行的尝试......

Hive源码编译及阅读修改调试

Hive是在数仓中用到的最重要的组件之一,难免会对其进行定制化修改... 在改源码到应用源码的路上,源码编译和源码调试以及打包应用必不可少,在我自己改源码的过程中走了些弯路,于是把基本操...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部