文档章节

Impala table/column统计分析

China_OS
 China_OS
发布于 2017/03/10 18:50
字数 767
阅读 105
收藏 0

介绍

        impala可以通过访问数据的统计信息对复杂和多表的查询做更好的优化,impala使用这些信息帮助一个work进行并行和分布式查询。

        Impala查询计划器可以使用有关整个表和分区的统计信息。 此信息包括物理特性,例如行数,数据文件数,数据文件的总大小和文件格式。 对于分区表,每个分区计算数字,并计为整个表的总计。 此元数据存储在Metastore数据库中,并且可以由Impala或Hive进行更新。 如果数字不可用,则值-1用作占位符。 一些数字,例如数据文件的数量和总大小,总是保持最新的,因为它们可以被计算得便宜,作为收集HDFS块元数据的一部分。

Table Statistics

SHOW TABLE STATS table_name;

        ps:示例显示了未分区的Parquet表的表统计信息。 文件的数量和大小的值始终可用。 最初,行数是未知的,因为它需要对整个表进行潜在的昂贵扫描,因此该值显示为-1。 COMPUTE STATS语句填充任何未知的表统计信息值。

COMPUTE STATS table_name;

    再次查看

 

    当元数据在元数据库数据库中可用时,Impala查询计划器可以使用有关各个列的统计信息。此方法对于在连接查询中跨表比较的列最有价值,以帮助估计查询将从每个表中检索多少行。这些统计信息对于使用EXISTS()或IN()运算符的关联子查询也很重要,这些运算符在内部以连接查询的方式处理

Column Statistics

show column stats table_name;
COMPUTE STATS table_name;

    示例显示了未分区的Parquet表的列统计信息。某些类型的最大和平均大小的值总是可用的,因为这些数字对于数字和其他固定大小类型是常数。最初,不同值的数量是未知的,因为它需要对整个表进行潜在的昂贵扫描,因此该值显示为-1。这同样适用于可变大小类型的最大和平均大小,例如STRING。 COMPUTE STATS语句填充大多数未知列统计信息值。 (它不记录NULL值的数量,因为当前Impala不会使用该数字进行查询优化。)

Show集合

SHOW DATABASES [[LIKE] 'pattern']
SHOW SCHEMAS [[LIKE] 'pattern'] - an alias for SHOW DATABASES
SHOW TABLES [IN database_name] [[LIKE] 'pattern']
SHOW [AGGREGATE | ANALYTIC] FUNCTIONS [IN database_name] [[LIKE] 'pattern']
SHOW CREATE TABLE [database_name].table_name
SHOW TABLE STATS [database_name.]table_name
SHOW COLUMN STATS [database_name.]table_name
SHOW PARTITIONS [database_name.]table_name
SHOW ROLES
SHOW CURRENT ROLES
SHOW ROLE GRANT GROUP group_name
SHOW GRANT ROLE role_name

刷新元数据

invalidate metadata;

 

© 著作权归作者所有

上一篇: Impala操作审计
下一篇: Impala资源管理
China_OS
粉丝 427
博文 463
码字总数 519985
作品 0
静安
技术主管
私信 提问
Impala 和 Hive 之间 SQL 区别(翻译)

Impala 和 Hive 之间 SQL 区别 当前版本的 Impala(1.2.3)不支持以下在 HiveQL 中可用的 SQL 特性: 非标量数据类型如 maps, arrays, structs 可扩展机制(Extensibility mechanisms)例如 TRAN...

weiqingbin
2014/01/01
6.9K
0
【总结】Apache Sentry 服务简介

Sentry是一个RPC服务,将认证元数据信息存储在关系型数据库,并提供RPC接口检索和操作权限。利用Kerveros支持安全访问。Sentry Service通过后台数据库存储提供认证元数据信息,不处理真实的权...

巧克力黒
2017/08/16
0
0
管理 Impala(部分翻译)

管理 Impala 作为管理员,你应监视 Impala 的资源使用情况,必要时采取行动以保证 Impala 平衡运行,避免与统一集群里的其他 Haoopd 组件冲突。当检测到已发生或将发生的问题时,你应重新配置...

weiqingbin
2013/12/17
1K
0
Getting Started with Impala

1 阅读说明 本文中存在一些需要进行标注的提示信息,以及提示分类。 提示信息使用如下格式分类: 笔记 随手笔记和提示。 重要 在执行之前需要注意的重要信息。 警告 关于数据丢失风险、权限问...

Yulong_
2017/08/09
0
0
Impala 表使用 Parquet 文件格式

Impala 表使用 Parquet 文件格式 Impala 帮助你创建、管理、和查询 Parquet 表。Parquet 是一种面向列的二进制文件格式,设计目标是为 Impala 最擅长的大规模查询类型提供支持(Parquet is a...

weiqingbin
2014/01/20
14.3K
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
今天
2.3K
15
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
今天
39
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
40
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
61
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
21
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部