加载中
从源码看Spark读取Hive表数据小文件和分块的问题

使用Spark进行数据分析和计算早已成趋势,你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题,而之前对此有些模糊,所以做了些整理,希望大家拍...

Hive map阶段优化之一次详细的优化分析过程

Hive的优化是一个非常复杂的问题,需要考虑到HQL、业务、数据、集群状况、配置等等... 不同的问题有不同的答案,不同的语句有不同的优化技巧。这里是我遇到的一个Hive Map阶段异常缓慢的问题...

也说Hadoop敏感信息加密方案的尝试(上)

数据安全性是大部分企业很看重的一个方面,在Hadoop集群环境下该怎么保证数据的安全性? 安全分为认证 + 权限,有了Kerberos做认证和Sentry做权限管理,敏感数据对内又该怎么防止泄露?这里做...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部