加载中
小白推演HIVE数据库的优化思路

小白之前用过一段Oracle等关系型数据库,并总结了关系型数据库优化的诀窍-看解释计划。Oracle是一个成熟产品,解释计划包含多个类别,有真实的,有虚拟的,通过对观察不同种类的解释计划数据...

10/22 09:45
20
spark dataframe 全局排名优化

spark提供给我们的全局排序,默认情况下只有spark-sql提供的窗口函数,但如果窗口是整个表eg:row_number() over(order by a) 会存在严重的数据倾斜,下面我们演示了俩种方式,例2是例1的改进...

08/08 23:45
187
hive-极致优化(二)-解释计划类别

/数据仓库/hive-极致优化-解释计划类别 1. 解释计划计划种类 在这里我们会讨论下面几种类型的解释计划 select-from-where select-function(col)-from和select-from-where-function(col) sel...

hive极致优化(一)-打开解释计划

/数据仓库/hive-极致优化-解释计划1 1. 读懂解释计划 hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划, 就能够知道,程序运行的前世今生。能够很...

cloudera spark2.2 读写hbase

cloudera spark2.2 读写hbase 例子 host = 'bigdata-03,bigdata-05,bigdata-04' conf = { "hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": "student1" } keyConv = "org.apa...

结合docker,cloudera对快速部署贴近实际生产的大数据基础平台思考和探索实践

2B场景,快速部署贴近实际生产的大数据基础平台探索 Table of Contents 1. 现状与思考 1.1. 背景介绍 1.2 例子 1.2.1 hdfs docker化 1.2.2 yarn等资源调度的引入 1.2.3 代码盘点 1.2.4 项目上...

时间同步-ntp服务器的搭建(docker版本)

introduce 用于构建cdm所需要的ntp服务器镜像,实现宿主机和ntpserver同步,ntpserver于ntpclient的同步 项目地址 项目github image build docker image build -t docker.finogeeks.club/li...

06/07 15:28
199
RDBMS变化数据设计,采集和接入大数据平台

变化的数据处理和捕获 在数据爆发式增长的时代,记录数据变化和演变,探究内在规律并运用到生产实践中,驱动业务的增长成为这个时代主旋律。本文就如何记录数据变化,处理数据变化谈谈自...

05/03 14:21
44
Hive 新特性 LLAP

Hive 新特性 LLAP

02/12 10:55
28
数据平台-第二章-数据地图

数据地图 数据地图在整个数据平台中,是一个manager的角色,也是一个顾问的角色。是一种图形化的数据管理工具,它提供了多层次的图形化展现,并具备各种粒度控制能力,满足业务使用,数据管理...

01/15 22:31
47
数据平台-第一章-数据质量提升

概述 元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行,实现数据平台管理和维护的自动化处理。数据质量管理是构...

01/11 13:47
193
PA数据平台-第二章-系统改进设计思路

前言 能够正常生产的系统就是必然有其的适用性,本着这个理念,在对系统的可能的调整上,是考虑兼容以前的逻辑上,在局部做了微调和新增一些必要的模块,下图是调整后的系统结构。整个系统的...

01/05 17:22
18
Hive-hiveSQL调优

前言 很早以前也是写过hivesql优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。勿赘言,影响HiveSQL性能有俩方面: SQL转化成MapReduce的算法以及算法执行路径图...

01/05 16:32
259
SQL优化-第三章-监控与定位性能问题引发点

前言 前面的章节我们聊到从体系结构,逻辑结构,表设计,索引,以及SQL语句都是可以优化的切入点,但是凡事如果能做到在事情发现前做到预防,是否发生能够快速定位,所以这里就列举了日常工作...

01/02 21:10
288
源码剖析-sqoop与datax的对比

前言 在数据同步见过sqoop,datax,hdata,filesync,这四个工具。分析内部的实现逻辑各有巧思,也收获良多。 Sqoop1和sqoop2 底层数据同步的基本原理是一样的,所以我选择了sqoop1的源码作为...

01/01 17:01
171
SQL优化-第二章-从解释计划层面让SQL飞

前言 在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解释计划就是这样的一把钥...

2017/12/31 22:47
2.4K
SQL优化-第一章-从设计层面让SQL飞

SQL 表设计 索引设计 逻辑结构 物理结构 SQL优化

2017/12/28 00:38
572
源码趣事-flume-队列动态扩容及容量使用

1. 前言 最近在做数据平台 整个接入系统的重构,重点看了flume的高可高机制,在看memoryChannel源码的时候发现几个有意思的实现,刚好最近得空,写出来,刚好也练练自己的文笔,哈~ 2. 需要知...

2017/12/26 19:28
98
摒弃低效的sql,利用hive的统计信息,快速收集表信息

前言 在衡量数据完整性,有个指标就是要统计表的行数。在监控集群的资源使用情况,需要统计表的占用空间。 在观察集群是否有很多小文件,需要统计占用空间/文件个数,可以做一个大致判断。 ...

2017/11/22 14:36
141

没有更多内容

加载失败,请刷新页面

返回顶部
顶部