加载中
安装基于HA模式的ALLUXIO(HDP版本)

编译打包hdp版本的alluxio mvn -T 8 install -Phadoop-3 -Dhadoop.version=3.1.1.3.1.0.0-78 -DskipTests 2. 编辑conf/alluxio-site.properties 将conf/alluxio-site.properties.template 重...

10/12 11:41
0
SpringBoot DataSource集成Hive、Phoenix、Presto数据源(带Kerberos校验)

在数据中台的落地过程中,元数据管理经常需要和多个数据源进行交互,下面我们延时几个数据源 1. HiveDataSource @Configuration @EnableTransactionManagement public class HiveDataSource ...

Superset缓存配置

配置superset的config.py CACHE_DEFAULT_TIMEOUT = 60 * 60 * 8 //设置缓存数据数据类型 CACHE_CONFIG = {'CACHE_TYPE': 'filesystem'} TABLE_NAMES_CACHE_CONFIG = {'CACHE_TYPE': 'filesys...

flume整合kafka,实现exactly one的数据采集

flume-kafka source配置 flume同步kafka的数据需要配置以下几个配置 type,数据源类型,如org.apache.flume.source.kafka.KafkaSource channels,下游对接source的channel名 topics,消费kaf...

spark dataframe 全局排名优化

spark提供给我们的全局排序,默认情况下只有spark-sql提供的窗口函数,但如果窗口是整个表eg:row_number() over(order by a) 会存在严重的数据倾斜,下面我们演示了俩种方式,例2是例1的改进...

2018/08/08 23:45
321
hive-极致优化(二)-解释计划类别

/数据仓库/hive-极致优化-解释计划类别 1. 解释计划计划种类 在这里我们会讨论下面几种类型的解释计划 select-from-where select-function(col)-from和select-from-where-function(col) sel...

2018/08/02 19:11
133
hive极致优化(一)-打开解释计划

/数据仓库/hive-极致优化-解释计划1 1. 读懂解释计划 hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划, 就能够知道,程序运行的前世今生。能够很...

2018/07/31 17:17
627
cloudera spark2.2 读写hbase

cloudera spark2.2 读写hbase 例子 host = 'bigdata-03,bigdata-05,bigdata-04' conf = { "hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": "student1" } keyConv = "org.apa...

结合docker,cloudera对快速部署贴近实际生产的大数据基础平台思考和探索实践

2B场景,快速部署贴近实际生产的大数据基础平台探索 Table of Contents 1. 现状与思考 1.1. 背景介绍 1.2 例子 1.2.1 hdfs docker化 1.2.2 yarn等资源调度的引入 1.2.3 代码盘点 1.2.4 项目上...

时间同步-ntp服务器的搭建(docker版本)

introduce 用于构建cdm所需要的ntp服务器镜像,实现宿主机和ntpserver同步,ntpserver于ntpclient的同步 项目地址 项目github image build docker image build -t docker.finogeeks.club/li...

2018/06/07 15:28
718
RDBMS变化数据设计,采集和接入大数据平台

变化的数据处理和捕获 在数据爆发式增长的时代,记录数据变化和演变,探究内在规律并运用到生产实践中,驱动业务的增长成为这个时代主旋律。本文就如何记录数据变化,处理数据变化谈谈自...

2018/05/03 14:21
107
Hive 新特性 LLAP

Hive 新特性 LLAP

2018/02/12 10:55
396
数据平台-第二章-数据地图

数据地图 数据地图在整个数据平台中,是一个manager的角色,也是一个顾问的角色。是一种图形化的数据管理工具,它提供了多层次的图形化展现,并具备各种粒度控制能力,满足业务使用,数据管理...

2018/01/15 22:31
95
数据平台-第一章-数据质量提升

概述 元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行,实现数据平台管理和维护的自动化处理。数据质量管理是构...

2018/01/11 13:47
272
PA数据平台-第二章-系统改进设计思路

前言 能够正常生产的系统就是必然有其的适用性,本着这个理念,在对系统的可能的调整上,是考虑兼容以前的逻辑上,在局部做了微调和新增一些必要的模块,下图是调整后的系统结构。整个系统的...

2018/01/05 17:22
30
Hive-hiveSQL调优

前言 很早以前也是写过hivesql优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。勿赘言,影响HiveSQL性能有俩方面: SQL转化成MapReduce的算法以及算法执行路径图...

2018/01/05 16:32
1K
SQL优化-第三章-监控与定位性能问题引发点

前言 前面的章节我们聊到从体系结构,逻辑结构,表设计,索引,以及SQL语句都是可以优化的切入点,但是凡事如果能做到在事情发现前做到预防,是否发生能够快速定位,所以这里就列举了日常工作...

2018/01/02 21:10
336
源码剖析-sqoop与datax的对比

前言 在数据同步见过sqoop,datax,hdata,filesync,这四个工具。分析内部的实现逻辑各有巧思,也收获良多。 Sqoop1和sqoop2 底层数据同步的基本原理是一样的,所以我选择了sqoop1的源码作为...

2018/01/01 17:01
884
SQL优化-第二章-从解释计划层面让SQL飞

前言 在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解释计划就是这样的一把钥...

2017/12/31 22:47
2.5K
SQL优化-第一章-从设计层面让SQL飞

SQL 表设计 索引设计 逻辑结构 物理结构 SQL优化

2017/12/28 00:38
607

没有更多内容

加载失败,请刷新页面

返回顶部
顶部