加载中
hive原生和复合型数据

原生类型 原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列分隔...

2016/09/18 23:51
12
hive udf、udaf、udtf

1、UDF:用户定义(普通)函数,只对单行数值产生作用; 实现方法: 1. 继承UDF类 2. 重写evaluate方法 /** * @function 自定义UDF统计最小值 * @author John * */ public class ......

2018/08/20 18:37
187
hive脚本执行方式

1. hive脚本的执行方式 hive脚本的执行方式大致有三种: 1. hive控制台执行; 2. hive -e "SQL"执行; 3. hive -f SQL文件执行; 参考hive的用法 usage: hive -d,--define <key=value> Vari...

2018/07/31 17:46
7
hive 计算分位数

hive里面倒是有个percentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1) 其中percentile要求输入的字段必须是int类型的,而percent...

2018/09/12 17:58
191
hive自定义函数

自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-Generat...

2016/09/20 18:11
100
Hive SQL数据倾斜及优化

1数据倾斜的原因 1.1操作: 关键词 情形 后果 Join 其中一个表较小, 但是key集中 分发到某一个或几个Reduce上的数据远高于平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由...

2016/09/19 14:58
828
presto中的名词

presto服务进程 presto集群中一共有两种服务器进程:coordinator服务进程和worker服务进程,其中coordinator服务进程的主要作用是:接收查询请求、解析查询语句、生成查询执行计划、任务调度...

2018/09/19 16:09
55
zeppelin 配置 hive

打开zeppelin interpreter界面 新建hive interpreter 配置hive相关属性 default.driver 和 default.url(hiveserver)是必须配置的,当然我们也可以在url中指定队列 jdbc:hive2://11.84.15....

2018/09/07 11:49
121
zeppelin 配置 spark

修改zeppelin 配置文件 在zeppelin-env.sh中添加spark路径和hadoop配置文件路径 export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR=/usr/lib/hadoop 修改spark interpreter参数 mast...

2018/09/11 10:56
390
presto 架构

presto 介绍 是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connect...

2018/09/19 12:14
137
hive Streaming

1.Hive Streaming介绍 在前面我们看到了UDF、UDTF、UDAF的实现并不是很简单,而且还要求对Java比较熟悉,而Hive设计的初衷是方便那些非Java人员使用。因此,Hive提供了另一种数据处理方式——...

2018/05/11 16:49
303
hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不...

2016/09/20 15:28
100
hive explain

hive 语句执行顺序 大致顺序 from... where.... select...group by... having ... order by... explain查看执行计划 hive语句和mysql都可以通过explain查看执行计划,这样就可以查看执行顺序...

2018/07/31 20:03
51
hive job oom

概括 先概括下,Hive中出现OOM的异常原因大致分为以下几种: 1. Map阶段OOM。 2. Reduce阶段OOM。 3. Driver提交Job阶段OOM。 Map阶段OOM: 1. 发生OOM的几率很小,除非你程序的逻辑不正常,...

2018/05/11 17:11
99
hive中的mapjoin

今天遇到一个hive的问题,如下hive sql: select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,...

2016/09/19 15:33
121
azkaban使用教程

登录 https://localhost:8443 注意是https,采用的是jetty ssl链接。输入账号密码azkaban/azkanban(如果你之前没有更改的话) 首页有四个菜单 projects:最重要的部分,创建一个工程,所有f...

2016/11/23 15:07
1K
Mybatis的generator生成WithBLOBS.java文件原因及解决

当表中有Text类型的字段时,generator会生成WithBLOBS.java文件并继承entity,同时具有带有text等类型字段的属性。 解决办法: 想要将text属性合并到entity中需要在xml添加如下配置即可,这样...

protobuf idl

protobuf的IDL都是保存为*.proto的文件中,proto文件中数据类型可以分为两大类:复合数据类型和标准数据类型。复合数据类型包括:枚举和message类型,标准数据类型包含:整型,浮点,字符串等...

2018/05/02 12:01
134
hive count distinct和group by

首先,Hive的group by和count(distinct)都是去除重复的数据,某种程度上来说,两者产生的结果是一样的。 实例代码: select a,count(distinct b) from t group by a select tt.a,count(tt....

2018/12/17 10:50
97
缓慢变化维(SCD)处理方式

维度可以根据变化剧烈程度主要分为无变化维度、缓慢变化维度和剧烈变化维度。例如一个人的相关信息,身份证号、姓名和性别等信息数据属于不变的部分,政治面貌和婚姻状态属于缓慢变化部分,而...

2016/09/12 16:34
255

没有更多内容

加载失败,请刷新页面

返回顶部
顶部