加载中
Mapreduce报错:Split metadata size exceeded 10000000

报错信息 Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce...

01/17 15:13
51
hive count distinct和group by

首先,Hive的group by和count(distinct)都是去除重复的数据,某种程度上来说,两者产生的结果是一样的。 实例代码: select a,count(distinct b) from t group by a select tt.a,count(tt....

2018/12/17 10:50
99
读时模式和写时模式

在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(...

2018/09/18 17:44
25
hive 计算分位数

hive里面倒是有个percentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1) 其中percentile要求输入的字段必须是int类型的,而percent...

2018/09/12 17:58
194
hive 开窗函数

测试数据 -- 建表 create table student_scores( id int, studentId int, language int, math int, english int, classId string, departmentId string ); -- 写入数据 insert into table st...

2018/09/12 17:55
32
hive 中的grouping set,cube,roll up函数

GROUPING SETS GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来,下面是几个实...

2018/09/12 17:20
170
hive中多个字段拼接注意躲避空值

select concat(leix01,leix02,leix03) from dim_ivr_dictionary where ivr_table like 'zj%' and bm='40102'; select concat(nvl(leix01,''),nvl(leix02,''),nvl(leix03,'')) from dim_ivr...

2018/08/27 15:49
22
hive udf、udaf、udtf

1、UDF:用户定义(普通)函数,只对单行数值产生作用; 实现方法: 1. 继承UDF类 2. 重写evaluate方法 /** * @function 自定义UDF统计最小值 * @author John * */ public class ......

2018/08/20 18:37
190
hive explain

hive 语句执行顺序 大致顺序 from... where.... select...group by... having ... order by... explain查看执行计划 hive语句和mysql都可以通过explain查看执行计划,这样就可以查看执行顺序...

2018/07/31 20:03
57
hive脚本执行方式

1. hive脚本的执行方式 hive脚本的执行方式大致有三种: 1. hive控制台执行; 2. hive -e "SQL"执行; 3. hive -f SQL文件执行; 参考hive的用法 usage: hive -d,--define <key=value> Vari...

2018/07/31 17:46
7
hive udaf 用maven打包执行create temporary function 时报错

用maven打包写好的jar,在放到hive中作临时函数时报错。 错误信息如下: hive> create temporary function maxvalue as "com.leaf.data.Maximum"; java.lang.SecurityException: Invalid si...

2018/05/11 17:28
83
hive job oom

概括 先概括下,Hive中出现OOM的异常原因大致分为以下几种: 1. Map阶段OOM。 2. Reduce阶段OOM。 3. Driver提交Job阶段OOM。 Map阶段OOM: 1. 发生OOM的几率很小,除非你程序的逻辑不正常,...

2018/05/11 17:11
99
hive Streaming

1.Hive Streaming介绍 在前面我们看到了UDF、UDTF、UDAF的实现并不是很简单,而且还要求对Java比较熟悉,而Hive设计的初衷是方便那些非Java人员使用。因此,Hive提供了另一种数据处理方式——...

2018/05/11 16:49
306
hive常见内置函数

摘要 Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录 数学函数 集合函数 类型转换函数...

2018/01/08 16:20
14
python实现hive udf

流程 主要分为两个部分,一个部分为Python脚本实现想要实现的功能,另外一个部分为HQL部分,调用Python脚本对数据进行处理。 Python部分 HQL调用Python实现的UDF其实有一个重定向的过程,把数...

2018/01/08 16:18
19
Hive分组取Top N

说明: row_number() over ([partition col1] [order by col2]) rank() over ([partition col1] [order by col2]) dense_rank() over ([partition col1] [order by col2]) 它们都是根据col1字...

2018/01/08 16:12
24
hive写入数据的四种方式

Hive的几种常见的数据导入方式,总结为四种: (1)、从本地文件系统中导入数据到Hive表; (2)、从HDFS上导入数据到Hive表; (3)、从别的表中查询出相应的数据并导入到Hive表中; (4)、...

2017/11/23 11:45
16
hive存储格式

Hive从两个维度对表的存储进行管理: row format 和 file format。 row format 指 行和一行中的字段如何存储。对于Hive来说,row format的定义由SerDe定义。file format指数据整体的存储格式...

2017/11/15 14:51
110
hive时间函数

UNIX时间戳转日期函数: from_unixtime 语法: from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时...

2017/08/18 18:54
14
hive一行变多行

ateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或...

2017/08/10 17:47
170

没有更多内容

加载失败,请刷新页面

返回顶部
顶部