连击 天
fork: star:
使用Spark进行数据分析和计算早已成趋势,你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题,而之前对此有些模糊,所以做了些整理,希望大家拍...
当现有HDFS遇到存储空间瓶颈时,我们可以通过往DN上加磁盘来缓解,而由于DN上的原有磁盘数据快满,新加的磁盘又是空的,就导致磁盘间的数据不平衡。在Hadoop3.0里,提供了disk-balancer工具用...
前言:网上关于类加载器讲解的文章特别多,在学习的时候让我受益匪浅,某段时间觉得自己懂了。但是在昨天遇到一个问题,并去看Spark关于用户类加载的时候,它实现的类加载器让我看的很疑惑,...
在Yarn/MRV2/Spark里都有任务失败再重试的设置,Yarn作为资源管理框架,而MRV2/Spark作为计算框架,它们的失败重试有什么不同? 有哪些参数来控制失败重试? Spark on Yarn的时候参数又有什么...
首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)...
Impala在即席查询上非常有优势,相比于龟速般的Hive,集群上线Impala后简单的即席查询快到飞起,虽然语法上没有Hive的丰富和顺手,但是对于一些基本的查询来说,它完全能胜任而且做得更好。I...
一个Hive SQL语句的执行需要经历哪些阶段? 在这些阶段中,我们可以做哪些事来影响它? Hive为我们提供了很多的钩子函数,我们可以怎样利用它为Hive实现扩展?
Hive的优化是一个非常复杂的问题,需要考虑到HQL、业务、数据、集群状况、配置等等... 不同的问题有不同的答案,不同的语句有不同的优化技巧。这里是我遇到的一个Hive Map阶段异常缓慢的问题...
Hive是在数仓中用到的最重要的组件之一,难免会对其进行定制化修改... 在改源码到应用源码的路上,源码编译和源码调试以及打包应用必不可少,在我自己改源码的过程中走了些弯路,于是把基本操...
数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...
Spark里的隐式转换$操作符,StringContext的特殊性及扩展
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复