加载中
从源码看Spark读取Hive表数据小文件和分块的问题

使用Spark进行数据分析和计算早已成趋势,你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题,而之前对此有些模糊,所以做了些整理,希望大家拍...

Hive map阶段优化之一次详细的优化分析过程

Hive的优化是一个非常复杂的问题,需要考虑到HQL、业务、数据、集群状况、配置等等... 不同的问题有不同的答案,不同的语句有不同的优化技巧。这里是我遇到的一个Hive Map阶段异常缓慢的问题...

也说Hadoop敏感信息加密方案的尝试(下)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

也说Hadoop敏感信息加密方案的尝试(上)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

KMS密钥管理服务(Hadoop)

KMS是Hadoop生态家族下的一个密钥管理组件,主要针对AES加密的密钥管理,具备Kerberos认证和ACL列表,对于有加密控制需求的人来说,是一个非常好的组件

由sqlContext.implicits._带来的一场血案

Spark里的隐式转换$操作符,StringContext的特殊性及扩展

Spark的Shuffle过程

Shuffle分为Shuffle Write和Shuffle Read,而shuffle又分为hash shuffle和sort based shuffle

Spark,Hive,HBase相互结合--数据读取和计算的几种方式

数据存储选择HBase时,基于HBase底层数据做数据分析,其列的映射和处理是比较麻烦的,那一般都有哪些方式呢? 好用的和不好用的,适用的范围都有哪些?

记一次数据库事务的并发同步控制

对包含数据库的json文件,如何提取表数据? 数据库事务有哪些级别? 并发事务如何控制同步?

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部