文档章节

Hive分析函数row_number()

JackieYeah
 JackieYeah
发布于 2016/05/25 23:59
字数 337
阅读 3134
收藏 0

业务背景

最近有一个需求是给用户浏览的商品进行评分, 然后将商品评分按降序排序, 最后取 Top 50 推荐给终端用户。评分的计算公式为: 该商品一个月内的购买次数 / 该商品两个月内的浏览次数。在实现该需求的时候就用到了 Hive 中内置的分析函数 row_number()。

row_number()函数简介

row_number() 函数的简单用法如下:

ROW_NUMBER() OVER (DISTRIBUTE BY COLUMN_A SORT BY COLUMN_B ASC/DESC)

说明: DISTRIBUTE BY COLUMN_A 的意思是按照 COLUMN_A 进行分组, SORT BY COLUMN_B 的意思是按照 COLUMN_B 进行排序, 后面跟着 ASC/DESC 指定是按照升序还是降序排序。row_number() 按指定的列进行分组生成行序列, 从 1 开始, 如果两行记录的分组列相同, 则行序列+1。

需求实现

数据表 user_item_score 结构大致如下:

| user_id | item_id | item_score | | ----- |:---- :| ---- :| | U_AAAA | I_AAA1 | 0.5 | | U_BBBB | I_BBB1 | 0.3 | | U_AAAA | I_AAA2 | 0.6 | | U_CCCC | I_CCCC | 0.7 | | U_AAAA | I_AAA3 | 0.55 | | U_BBBB | I_BBB2 | 0.4 |

实现 SQL 如下:

select user_id, item_id, item_score from (
    select *, row_number() over ( distribute by user_id sort by item_score desc) rownum from user_item_score
) temp
where rownum <= 50;

最终结果如下:

| user_id | item_id | item_score | row_num | | ----- |:---- :| ---- :|---- :| | U_AAAA | I_AAA2 | 0.6 | 1 | | U_AAAA | I_AAA3 | 0.55 | 2 | | U_AAAA | I_AAA1 | 0.5 | 3 | | U_BBBB | I_BBB2 | 0.4 | 1 | | U_BBBB | I_BBB1 | 0.3 | 2 | | U_CCCC | I_CCCC | 0.7 | 1 |

© 著作权归作者所有

共有 人打赏支持
JackieYeah
粉丝 44
博文 70
码字总数 90004
作品 0
武汉
程序员
私信 提问
Hive 高级应用及分析窗口函数

Hive高级应用 1、支持复杂数据类型 array,map,struct 支持对应复杂数据类型的遍历和查询 2、支持视图 3、函数 3.1、丰富的内置函数 3.2、支持自定义Java处理类,以jar文件的方式添加至Hiv...

PeakFang-BOK
11/26
0
0
Oracle/Hive/Impala SQL比较

5 Function 指数据库内置的function,不讨论UDF。另外,操作符都不比较了,区别不大。 5.1 数学函数 功能 Oracle Hive Impala ABS 绝对值,有 有 有 SIN/SINH/ASIN/COS/COSH/ACOS/TAN/TANH/A...

hblt-j
2017/10/28
0
0
分析函数问题-矢量计算时管道越界

报错信息如下: Diagnostics report from attempt1479210500211159364m000003_0: Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Err......

rossiter
2016/12/14
19
0
hive底层可以查询数据,但是插入到目标表时候没有结果

linux下。hive 0.11.0版本 select A.key key, A.RECORDTIME RECORDTIME, A.CONTENTID CONTENTID, cast(A.RN_1 as int) RN_1, cast(A.RN_2 as int) RN_2, cast(B.RN_3 as int) RN_3 from (SEL......

昨夜风魂
2013/09/06
347
1
Hive 常见问题与技巧【Updating】

1Q: 是否有像类似于phpmyadmin一样的hive查询客户端,能以界面的方式查询hive语句和导出数据 A: 有的,客户端的话可以使用squirrel来连接hive,squirrel是一个通用的数据库查询客户端,还有有...

大数据之路
2013/09/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

[LintCode] Serialize and Deserialize Binary Tree(二叉树的序列化和反序列化)

描述 设计一个算法,并编写代码来序列化和反序列化二叉树。将树写入一个文件被称为“序列化”,读取文件后重建同样的二叉树被称为“反序列化”。 如何反序列化或序列化二叉树是没有限制的,你...

honeymose
53分钟前
5
0
java框架学习日志-7(静态代理和JDK代理)

静态代理 我们平时去餐厅吃饭,不是直接告诉厨师做什么菜的,而是先告诉服务员点什么菜,然后由服务员传到给厨师,相当于服务员是厨师的代理,我们通过代理让厨师炒菜,这就是代理模式。代理...

白话
今天
23
0
Flink Window

1.Flink窗口 Window Assigner分配器。 窗口可以是时间驱动的(Time Window,例如:每30秒钟),也可以是数据驱动的(Count Window,例如:每一百个元素)。 一种经典的窗口分类可以分成: 翻...

满小茂
今天
18
0
my.ini

1

architect刘源源
今天
16
0
docker dns

There is a opensource application that solves this issue, it's called DNS Proxy Server It's a DNS server that solves containers hostnames, if could not found a hostname that mat......

kut
今天
16
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部