加载中
presto中的名词

presto服务进程 presto集群中一共有两种服务器进程:coordinator服务进程和worker服务进程,其中coordinator服务进程的主要作用是:接收查询请求、解析查询语句、生成查询执行计划、任务调度...

2018/09/19 16:09
55
hive原生和复合型数据

原生类型 原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列分隔...

2016/09/18 23:51
12
hive自定义函数

自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-Generat...

2016/09/20 18:11
100
hive脚本执行方式

1. hive脚本的执行方式 hive脚本的执行方式大致有三种: 1. hive控制台执行; 2. hive -e "SQL"执行; 3. hive -f SQL文件执行; 参考hive的用法 usage: hive -d,--define <key=value> Vari...

2018/07/31 17:46
7
DDL/DML/DCL/TCL基本概念

1. 数据定义语言DDL DDL((Data Definition Language),用于定义/修改/删除数据对象(如表)的数据结构,或者说,DDL语言操作的对象是数据库中的对象而非对象所包含的数据。 DDL包含以下语句: ...

2016/09/18 17:32
34
zeppelin 配置 hive

打开zeppelin interpreter界面 新建hive interpreter 配置hive相关属性 default.driver 和 default.url(hiveserver)是必须配置的,当然我们也可以在url中指定队列 jdbc:hive2://11.84.15....

2018/09/07 11:49
134
presto 架构

presto 介绍 是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connect...

2018/09/19 12:14
143
hive Streaming

1.Hive Streaming介绍 在前面我们看到了UDF、UDTF、UDAF的实现并不是很简单,而且还要求对Java比较熟悉,而Hive设计的初衷是方便那些非Java人员使用。因此,Hive提供了另一种数据处理方式——...

2018/05/11 16:49
306
hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不...

2016/09/20 15:28
102
hive explain

hive 语句执行顺序 大致顺序 from... where.... select...group by... having ... order by... explain查看执行计划 hive语句和mysql都可以通过explain查看执行计划,这样就可以查看执行顺序...

2018/07/31 20:03
57
hive job oom

概括 先概括下,Hive中出现OOM的异常原因大致分为以下几种: 1. Map阶段OOM。 2. Reduce阶段OOM。 3. Driver提交Job阶段OOM。 Map阶段OOM: 1. 发生OOM的几率很小,除非你程序的逻辑不正常,...

2018/05/11 17:11
99
hive中的mapjoin

今天遇到一个hive的问题,如下hive sql: select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,...

2016/09/19 15:33
126
azkaban使用教程

登录 https://localhost:8443 注意是https,采用的是jetty ssl链接。输入账号密码azkaban/azkanban(如果你之前没有更改的话) 首页有四个菜单 projects:最重要的部分,创建一个工程,所有f...

2016/11/23 15:07
1K
hive udf、udaf、udtf

1、UDF:用户定义(普通)函数,只对单行数值产生作用; 实现方法: 1. 继承UDF类 2. 重写evaluate方法 /** * @function 自定义UDF统计最小值 * @author John * */ public class ......

2018/08/20 18:37
190
hive count distinct和group by

首先,Hive的group by和count(distinct)都是去除重复的数据,某种程度上来说,两者产生的结果是一样的。 实例代码: select a,count(distinct b) from t group by a select tt.a,count(tt....

2018/12/17 10:50
100
hive中的 left semi join

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右...

2016/09/19 15:04
157
Hive SQL数据倾斜及优化

1数据倾斜的原因 1.1操作: 关键词 情形 后果 Join 其中一个表较小, 但是key集中 分发到某一个或几个Reduce上的数据远高于平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由...

2016/09/19 14:58
837
读时模式和写时模式

在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(...

2018/09/18 17:44
25
hive udaf 用maven打包执行create temporary function 时报错

用maven打包写好的jar,在放到hive中作临时函数时报错。 错误信息如下: hive> create temporary function maxvalue as "com.leaf.data.Maximum"; java.lang.SecurityException: Invalid si...

2018/05/11 17:28
83
spark hive python依赖第三方包

下载python对应版本源代码,https://www.python.org/downloads/source/ 构建过程: # 下载 wget https://www.python.org/ftp/python/2.7.9/Python-2.7.9.tgz tar -zxvf Python-2.7.9.tgz cd ...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部