加载中
zeppelin on CDH及配置spark查询hive表

1.下载zeppelin http://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是C...

CDH5上离线安装Spark2.3并配置hive on spark2

在先前装的CDH5.14集群中,默认安装的spark是1.6.0版本。我们现在可以现有的集群中再装spark2.x版本,能和spark1.6版本并存。 当前CDH支持的Spark2.X最新版本是Spark2.3.0,目前Apache Spar...

Adaptive Execution patch and how to bulid on cdh5

导读:本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新开发代码。自动设置 Shuffle Partition 个数已...

dataX概述

目录 前言 一、阿里云开源离线同步工具DataX3.0介绍 二、DataX架构及原理 三、DataX程序流程介绍 四、DataX 如何使用 五、DataX Java使用 六、DataX部分核心源码解析 前言 最近接到需求是,需...

前天 12:18
7
presto执行过程,sql支持及hive异同

Prestodb概述及性能测试 博客分类: presto系列 概述内容 (1)简介 (2)Hive and Prestodb, comparison of functionality (3)Hive and Prestodb, comparison of performance (1)简介 ...

前天 11:53
0
使用Apache Sentry的Presto

概观 Apache Sentry是一个基于角色的粒度授权模块,适用于Hadoop。Sentry提供了对经过身份验证的用户和应用程序(如Presto)的数据控制和强制执行精确级别权限的功能。 Presto Enterprise与A...

Presto架构及原理、安装及部署

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10...

01/27 17:56
23
SparkSQL自适应执行

编辑 · 本页目录 解决问题 测试 阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。 解决问题 SparkSQL自适应执行解决以...

kylin KV+cube方案分析

前言   在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格...

Druid + Superset

Divolte + Kafka + Druid + Superset 在当今世界,您希望尽快向客户学习。本博客介绍了如何使用开源技术设置流分析。我们将使用Divolte,Kafka,Superset和Druid建立一个系统,让您即时深入了...

DAG vs. MPP vs MR

1、DAG vs MPP Native Design MPP每个Segment高度对称(symmetric),狭义MPP storage各个Segment自己管理,自己备份,涉及某数据相关的query必定会落到某个Segment上,有concurrency和straggl...

hadoop详细配置及调优

Hadoop的参数配置详解 Jobtracker配置 更改此部分中的任何参数都需要重新启动JobTracker。 参数值描述 mapred.job.tracker maprfs:/// JobTracker地址ip:port或使用uri maprfs:///表示默认...

druid等 olap框架对比分析

简介 Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。 Druid在设计时充分考虑到了高可用性,各种节点挂掉...

数据生产与收集

数据 对于移动端的app来说, 分析的数据大致上都可以分为俩种, 一种是在线数据,一种是离线数据。 在线数据, 即app后端服务所产生的日志数据,例如服务接口的性能数据, 服务接口的调用及其...

druid安装与案例

druid 可以运行在单机环境下,也可以运行在集群环境下。简单起见,我们先从单机环境着手学习。 环境要求 java7 或者更高版本 linux, macOS或者其他unix系统(不支持windows系统) 8G内存 2核C...

Apache 流框架 Flink,Spark Streaming,Storm对比分析

1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理...

流处理和批处理框架的异同

分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对...

druid架构及原理

应用场景 设计一个系统来预估未来一年的广告流量,不是总流量,是任意时间段任何定向(Targeting)条件约束情况下的流量。定向条件有近百种(内容类别,设备平台,用户地域,用户人口属性等),...

01/22 17:24
30
CDH5动静态资源池配置与回滚

关于动态 静态资源池的配置以前都有提过,可以从以下几篇了解: YARN动态资源池配置案例 https://yq.aliyun.com/ziliao/346856# Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数 Hadoop...

oozie job 的挂了监控报警或重启

oozie Coordinator 的job 和actioni状态很多,但好像不支持设置某状态如failed后30分钟后自动重新拉启,因他的条件只有几种:触发条件可以是一个时间频率、一个dataset实例是否可用,或者可能...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部