Parquet 支持数据嵌套的列式数据存储格式
Parquet 支持数据嵌套的列式数据存储格式
cloud-coder 发表于2年前
Parquet 支持数据嵌套的列式数据存储格式
  • 发表于 2年前
  • 阅读 2891
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要: Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。

简介

        Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。

        Parquet是Twitter内部的列式存储,目前开源并将代码托管在 parquet-format

        Parquet是一种供Hadoop使用的列式存储格式。Parquet为Hadoop生态系统中的所有项目提供支持高效率压缩的列式数据表达,而且与数据处理框架、数据模型或编程语言都没有关系。

        正如Google Dremel一样,Parquet由许多复杂的嵌套的数据结构组成,并使用重复级别/定义级别(repetition/definition level )的方法来对数据结构进行编码。这种方法能够实现优秀的简单扁平的嵌套命名空间。

        Parquet支持对某一列数据进行压缩,未来还会实现更多的编码方式。将编码的概念与压缩分开,Parquet的用户可以直接对编码数据进行实施和操作,而不需要经历先解压再压缩的过程。

        Parquet被设计成可供任何人使用。Hadoop生态圈中有大量的数据处理框架,一个高效的、便于实施的列式存储模板应该为所有框架所用。

        提供了用于处理列式数据的Java构建块,和Hadoop输入/输出格式工具,Pig储存/加载,并集成了Parquet格式转换工具( parquet-mr)。

        Parquet metadata is encoded using Apache Thrift.


共有 人打赏支持
粉丝 232
博文 187
码字总数 134554
×
cloud-coder
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: