加载中
从源码看Spark读取Hive表数据小文件和分块的问题

使用Spark进行数据分析和计算早已成趋势,你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题,而之前对此有些模糊,所以做了些整理,希望大家拍...

DataNode磁盘平衡器[代码分享]

当现有HDFS遇到存储空间瓶颈时,我们可以通过往DN上加磁盘来缓解,而由于DN上的原有磁盘数据快满,新加的磁盘又是空的,就导致磁盘间的数据不平衡。在Hadoop3.0里,提供了disk-balancer工具用...

ClassLoader和双亲委派机制

前言:网上关于类加载器讲解的文章特别多,在学习的时候让我受益匪浅,某段时间觉得自己懂了。但是在昨天遇到一个问题,并去看Spark关于用户类加载的时候,它实现的类加载器让我看的很疑惑,...

从源码角度对比Yarn下的App对任务失败的控制

在Yarn/MRV2/Spark里都有任务失败再重试的设置,Yarn作为资源管理框架,而MRV2/Spark作为计算框架,它们的失败重试有什么不同? 有哪些参数来控制失败重试? Spark on Yarn的时候参数又有什么...

从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)...

浅析Impala——了解它的基本结构

Impala在即席查询上非常有优势,相比于龟速般的Hive,集群上线Impala后简单的即席查询快到飞起,虽然语法上没有Hive的丰富和顺手,但是对于一些基本的查询来说,它完全能胜任而且做得更好。I...

你想了解的Hive Query生命周期--钩子函数篇!

一个Hive SQL语句的执行需要经历哪些阶段? 在这些阶段中,我们可以做哪些事来影响它? Hive为我们提供了很多的钩子函数,我们可以怎样利用它为Hive实现扩展?

Kerberos的那些报错汇总

本文记录了在使用Kerberos过程中遇到的一些问题,后续有新的问题会再添加。在Hadoop集群环境中,搭建KDC和启用Kerberos比较简单,本文不做描述,只是罗列了一些可能问题,做抛砖引玉之用,欢...

Spark UDTF 与 输出多列的UDF小笔记

从Spark 1.3.0开始的explode就是一个UDTF,到1.6.0里广泛使用的json_tuple也是一个UDTF,但是目前的版本里面并没有提供给用户自己实现UDTF的方式... 那么如果一个UDF想要输出多个Column该怎么...

Spark UDF变长参数的二三事儿

在复杂业务逻辑中,我们经常会用到Spark的UDF,当一个UDF需要传入多列的内容并进行处理时,UDF的传参该怎么做呢? 下面通过变长参数引出,逐一介绍三种可行方法以及一些不可行的尝试......

Hive map阶段优化之一次详细的优化分析过程

Hive的优化是一个非常复杂的问题,需要考虑到HQL、业务、数据、集群状况、配置等等... 不同的问题有不同的答案,不同的语句有不同的优化技巧。这里是我遇到的一个Hive Map阶段异常缓慢的问题...

Hive源码编译及阅读修改调试

Hive是在数仓中用到的最重要的组件之一,难免会对其进行定制化修改... 在改源码到应用源码的路上,源码编译和源码调试以及打包应用必不可少,在我自己改源码的过程中走了些弯路,于是把基本操...

也说Hadoop敏感信息加密方案的尝试(下)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

也说Hadoop敏感信息加密方案的尝试(上)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

KMS密钥管理服务(Hadoop)

KMS是Hadoop生态家族下的一个密钥管理组件,主要针对AES加密的密钥管理,具备Kerberos认证和ACL列表,对于有加密控制需求的人来说,是一个非常好的组件

由sqlContext.implicits._带来的一场血案

Spark里的隐式转换$操作符,StringContext的特殊性及扩展

Spark的Shuffle过程

Shuffle分为Shuffle Write和Shuffle Read,而shuffle又分为hash shuffle和sort based shuffle

Kafka源码分析Producer读取Metadata的数据结构及Metadata两种更新机制介绍

问题导读: 1. 什么是多线程异步发送模型? 2. Metadata的线程安全性如何实现? 3. Metadata的数据结构是什么? 4. producer如何读取Metadata? 5. Sender的如何创建? 6. Sender poll()如何更...

2016/09/29 11:19
136
Spark,Hive,HBase相互结合--数据读取和计算的几种方式

数据存储选择HBase时,基于HBase底层数据做数据分析,其列的映射和处理是比较麻烦的,那一般都有哪些方式呢? 好用的和不好用的,适用的范围都有哪些?

没有更多内容

加载失败,请刷新页面

返回顶部
顶部