加载中
Tachyon更名为 Alluxio,并发布1.0版本

近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公...

使用Spark DataFrame针对数据进行SQL处理

DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。本文提供使用DataFrame进行数据处理的样例

Tachyon:Spark生态系统中的分布式内存文件系统

摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。

Parquet 支持数据嵌套的列式数据存储格式

Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部