文档章节

Spark技术互动问答分享

Spark亚太研究院
 Spark亚太研究院
发布于 2014/07/24 17:18
字数 527
阅读 105
收藏 0

Q1:Spark SQL和Shark有啥区别?

  • Shark需要依赖于HadoopHive去做SQL语句的解析和分析Spark,而SQL主要依赖了Catalyst这个新的查询优化框架,在把SQL解析成逻辑执行计划之后,利用Catalyst包里的一些类和接口,执行了一些简单的执行计划优化,最后变成RDD的计算;

  • Databricks表示,Shark更多是对Hive的改造,替换了Hive的物理执行引擎,因此会有一个很快的速度。然而,不容忽视的是,Shark继承了大,量的Hive代码,因此给优化和维护带来了大量的麻烦。随着性能优化和先进分析整合的进一步加深,基于MapReduce设计的部分无疑成为了整个项目的瓶颈;

  • Spark新发布的Spark SQL组件让SparkSQL有了别样于Shark基于Hive的支持:

  • 其一,能在Scala代码里写SQL,支持简单的SQL语法检查,能把RDD指定为Table存储起来。此外支持部分SQL语法的DSL

  • 其二,支持Parquet文件的读写,且保留Schema

  • 其三,能在Scala代码里访问Hive元数据,能执行Hive语句,并且把结果取回作为RDD使用。

Q2:Spark SQL会提供JDBC吗?

  • Spark官方指出:“Spark SQL includes a server mode with industry standard JDBC and ODBC connectivity.”;

  • Jdbc support branchis under going    

 Q3:执行Task不是还要跟Driver交互吗?

  • 执行Task时要和Driver交互,动态的向Driver报告执行情况。

 Q4:对于RDD上的数据如何取出来供外部程序使用?

  • 使用save等方法保存在HDFS之上;

  • 然后通过Sqoop等工具到处到MySQL等数据库供外部使用;

  • 也可以保存在HBase之上。

 Q5:Spark官网上说Spark SQL不是很强大,还说建议大家复查查询的时候还是使用Hive。

  • Spark 1.01.0.1版本复杂的查询需要使用Hive

  • 随着Spark版本的更新,可以做任何复杂度的查询。

 

© 著作权归作者所有

Spark亚太研究院
粉丝 75
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第17期互动问答分享】 Q1:为了加快spark shuffle 的执行速度是否可以把sparklocaldirs 指向一块固态硬盘上面,这样做是否有效果...

Spark亚太研究院
2014/10/17
195
0
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用; 国内也有公司在使用; ...

Spark亚太研究院
2014/09/24
135
0
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】 Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式 Client模式如...

Spark亚太研究院
2014/09/04
252
0
OSC 第 65 期高手问答 — Spark 企业级实战

OSCHINA 本期高手问答(3月23日-3月29日)我们请来了 @王家林 (王家林)为大家解答关于 Spark 开发方面的问题。 王 家林,Spark 亚太研究院院长和首席专家,当今云计算领域最火爆的技术Docke...

叶秀兰
2015/03/23
6.4K
22
【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1:AppClient和worker、master之间的关系是什么? :AppClient是在StandAlone模式下SparkContext.runJob...

Spark亚太研究院
2014/10/08
128
0

没有更多内容

加载失败,请刷新页面

加载更多

最简单的获取相机拍照的图片

  import android.content.Intent;import android.graphics.Bitmap;import android.os.Bundle;import android.os.Environment;import android.provider.MediaStore;import andr......

MrLins
34分钟前
4
0
说好不哭!数据可视化深度干货,前端开发下一个涨薪点在这里~

随着互联网在各行各业的影响不断深入,数据规模越来越大,各企业也越来越重视数据的价值。作为一家专业的数据智能公司,个推从消息推送服务起家,经过多年的持续耕耘,积累沉淀了海量数据,在...

个推
35分钟前
7
0
第三方支付-返回与回调注意事项

不管是支付宝,微信,还是其它第三方支付,第四方支付,支付机构服务商只要涉及到钱的交易都要进行如下校验,全部成功了才视为成功订单 1.http请求是否成功 2.校验商户号 3.校验订单号及状态...

Shingfi
38分钟前
4
0
简述Java内存分配和回收策略以及Minor GC 和 Major GC(Full GC)

内存分配: 1. 栈区:栈可分为Java虚拟机和本地方法栈 2. 堆区:堆被所有线程共享,在虚拟机启动时创建,是唯一的目的是存放对象实例,是gc的主要区域。通常可分为两个区块年轻代和年老代。更...

DustinChan
44分钟前
6
0
Excel插入批注:可在批注插入文字、形状、图片

1.批注一直显示:审阅选项卡-------->勾选显示批注选项: 2.插入批注快捷键:Shift+F2 组合键 3.在批注中插入图片:鼠标右键点击批注框的小圆点【重点不可以在批注文本框内点击】----->调出批...

东方墨天
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部