RDD、DataFrame、DataSet、SQLContext,HiveContext

原创
2016/04/08 17:26
阅读数 1.7K

RDD

spark最基础的分布式数据集,RDD提供了很多api来操作这个数据集中的数据,Rdd中的每一列没有scheme,没有标识。

DataFrame

spark的高级抽象,在RDD的分布式数据集上,加上了scheme的信息,每一列都有标识,标识这一列的名称和类型。提供了更多的api,这些api能实现类似sql的操作,底层实现还是RDD

DataSet

DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder

当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象。在spark2.0中,DataFrame能无缝转换成DataSet

SQLContext

可以使用.sql()方法,直接查询表中的数据,将返回的数据封装成DataFrame,SQLContext中维护一套表,其实底层就是DataFrame,这个sql可以直接对表中的数据做SQL操作。sqlContext能从不同的数据源加载数据,将数据转换成DataFrame,也能将DataFrame转换成sqlContext自身中的表,使用sql来操作数据。

HiveContext

hiveContext继承自SQLContext,除了SQLContext中的功能之外,还具有直接操作hive库中表的数据,和HQL兼容。如果访问hive库,需要将hive-site.xml复制到spark的conf下。

参考:Spark RDD、DataFrame和DataSet的区别

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
1 收藏
1
分享
返回顶部
顶部