文档章节

hive数据抽样

张朝峥
 张朝峥
发布于 2016/05/03 18:47
字数 169
阅读 106
收藏 4

首先,我们了解一下抽样查询的SQL语法。

分桶抽样
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
百份比抽样
TABLESAMPLE (n PERCENT)
行抽样
TABLESAMPLE (n ROWS)
大小抽样
TABLESAMPLE (n{'b' | 'B' | 'k' | 'K' | 'm' | 'M' | 'g' | 'G'})

分桶抽样

根据hash(uid) % 20进行分桶,抽取第一个桶的数据。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON uid) t
随机分桶,并抽取第一个桶的数据。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON rand()) t

百份比抽样

SELECT * FROM TABLE1 TABLESAMPLE(10.5 PERCENT) t

行抽样

SELECT * FROM TABLE1 TABLESAMPLE(105 ROWS) t

大小抽样

SELECT * FROM TABLE1 TABLESAMPLE(500M) t


© 著作权归作者所有

张朝峥
粉丝 1
博文 12
码字总数 5549
作品 0
广州
高级程序员
私信 提问
使用Hive如何进行抽样查询?

对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果,而不是全部结果。Hive可以通过分桶抽样来满足这个需求。 通过rand()函数实现抽样(可以通过分桶裁剪提高抽样效率) 通过...

无精疯
2018/04/24
0
0
HiveQL的一些技巧

随机抽样 有的时候我们需要从一张大表中随机抽取一定量的样本供分析,Hive中提供了一个rand()函数,我们就利用这个来实现随机抽样。 思路如下: 对于表中每行均附加一个随机的整数,然后再以...

余二五
2017/11/16
0
0
hive官方文档翻译

概念 Hive是什么 Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。 Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。...

qi49125
2017/09/16
0
0
Hive 环境搭建

一、安装hive的机器上要有hadoop的环境 hadoop集群搭建参考博客地址 https://my.oschina.net/xiaozhou18/blog/787902 二、现在机器上安装mysql数据库 用来存储hive的元数据信息 命令如下 rp...

xiaozhou18
2016/11/26
21
0
Hive配置项的含义详解

hive的配置: hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置; hive.exec.script.wrapper:hive调用脚本时的包装器,默...

bluz
2016/09/13
16
0

没有更多内容

加载失败,请刷新页面

加载更多

JDBC直接读取properties,连接数据库的util类

完整代码如下:拼凑的代码,源代码不知道从哪来的了。见谅! 使用的话直接在自己的service或dao注入 package com.javafast.util;import com.alibaba.druid.pool.DruidDataSource;import co...

S三少S
3分钟前
0
0
StringBuffer 学习

字符串特点:字符串是常量;它们的值在创建之后不能更改. 字符串的内容一旦发生了变化,那么马上会创建一个新 的对象。 注意: 字符串的内容不适宜频繁修改,因为一旦修改马上就会创建一个新...

Hellation
8分钟前
0
0
好程序员大数据分享HDFS读写两步教程

一、HDFS读写之前提 NameNode(元数据节点):存放元数据(名称空间、副本数、权限、块列表、集群配置信息),不包含数据节点。元数据节点将文件系统元数据存储在内存中。 1.DataNode(数据节点...

好程序员IT
14分钟前
0
0
Visual Paradigm 教程[UML]:如何使用子图?

下载Visual Paradigm最新试用版 查看本教程视频文件 一个清晰易懂的模型永远不会在一个图表中包含所有内容。相反,想法被分为多个层,通常称为抽象层。以用例为例。简单的椭圆形状不能代表与...

xiaochuachua
15分钟前
0
0
goland集成golint

最近参加一个项目,发现大家都是使用golint进行go代码的检测的,因为我使用的还是goland,只能集成进去进行检测。 最好的方式就是文件被修改后进行检测,所以我打算将golint集成到filewatch中...

梦朝思夕
27分钟前
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部