文档章节

Parquet 支持数据嵌套的列式数据存储格式

cloud-coder
 cloud-coder
发布于 2015/06/17 10:27
字数 475
阅读 3018
收藏 0

简介

        Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。

        Parquet是Twitter内部的列式存储,目前开源并将代码托管在 parquet-format

        Parquet是一种供Hadoop使用的列式存储格式。Parquet为Hadoop生态系统中的所有项目提供支持高效率压缩的列式数据表达,而且与数据处理框架、数据模型或编程语言都没有关系。

        正如Google Dremel一样,Parquet由许多复杂的嵌套的数据结构组成,并使用重复级别/定义级别(repetition/definition level )的方法来对数据结构进行编码。这种方法能够实现优秀的简单扁平的嵌套命名空间。

        Parquet支持对某一列数据进行压缩,未来还会实现更多的编码方式。将编码的概念与压缩分开,Parquet的用户可以直接对编码数据进行实施和操作,而不需要经历先解压再压缩的过程。

        Parquet被设计成可供任何人使用。Hadoop生态圈中有大量的数据处理框架,一个高效的、便于实施的列式存储模板应该为所有框架所用。

        提供了用于处理列式数据的Java构建块,和Hadoop输入/输出格式工具,Pig储存/加载,并集成了Parquet格式转换工具( parquet-mr)。

        Parquet metadata is encoded using Apache Thrift.


© 著作权归作者所有

共有 人打赏支持
cloud-coder
粉丝 247
博文 191
码字总数 135000
作品 0
广州
架构师
私信 提问
深入分析Parquet列式存储格式

深入分析Parquet列式存储格式 作者 梁堰波 发布于 2015年8月7日 | 讨论 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读 我的阅读清单 Parquet是面向分析型业务的列式存储...

openthings
2016/04/24
276
1
深入分析Parquet列式存储格式

原文地址 Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相...

枯藤KT
2016/10/11
21
0
网易视频云:新一代列式存储格式Parquet的最佳实践

网易视频云是网易打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。本文由网易视频云的技...

网易视频云
2016/05/27
0
0
Hive格式 Parquet与ORC性能测试报告

一、环境说明 Hadoop集群:使用测试Hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下: CPU数量:2个 CPU线程数:32个 内存:128GB 磁盘...

GordonNemo
11/13
0
0
列式存储格式--Apache ORC

Apache ORC 文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。 ORC(OptimizedRC File)存储源自...

匿名
2017/01/17
480
0

没有更多内容

加载失败,请刷新页面

加载更多

函数计算工具链新成员 —— Fun Local 发布啦

刚刚,我们发布了函数计算工具链的新成员,Fun Local。欢迎大家使用! 如果你还不了解 Fun 是什么,我们来简单解释下。 Fun 是什么 Fun 是 have Fun with Serverless 的缩写,是一款 Server...

阿里云官方博客
7分钟前
0
0
Linux下实现 OpenSSL 简单加密与解密字符串

场景 shell脚本中存在明文密码 客户要求禁止使用明文密码,密码做加密处理. 方案 在网上了解到了Linux OpenSSL加密解密工具 可以指定各种加密算法为字符,文件做加密处理. 加密的案例比较多,解...

问题终结者
10分钟前
0
0
ActiveMQ 消息中间件

什么是ActiveMQ ActiveMQ是Apache出品,能力强劲的开源消息总线。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现,尽管JMS规范出台已经是很久的事情了,但是JMS在当今的J2E...

ashuo
14分钟前
0
0
详解ECMAScript typeof用法

typeof 返回变量的类型字符串值 、其中包括 “object”、“number”、“string”、“undefined”、“boolean”、 1、在变量只声明、却不初始化值 Or 在变量没有声明时 返回 “undefined” > ...

peakedness丶
15分钟前
0
0
函数计算性能福利篇(二) —— 业务冷启动优化

继前一篇《函数计算性能福利篇——系统冷启动优化》,我们再来看看近期函数计算推出的 Initializer 功能之后,带来的一波高能性能优化成果。 背景 函数计算是一个事件驱动的全托管 serverle...

阿里云云栖社区
20分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部