文档章节

【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Spark亚太研究院
 Spark亚太研究院
发布于 2014/08/04 15:33
字数 421
阅读 131
收藏 0

“决胜云计算大数据时代”

Spark亚太研究院100期公益大讲堂 【第6期互动问答分享】

 

Q1:spark streaming 可以不同数据流 join吗?

  • Spark Streaming不同的数据流可以进行join操作;

  • Spark Streaming is an extension of the core Spark API that allows enables high-throughput, fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka, Flume, Twitter, ZeroMQ or plain old TCP sockets and be processed using complex algorithms expressed with high-level functions like mapreducejoin and window

  • join(otherStream, [numTasks]):When called on two DStreams of (K, V) and (K, W) pairs, return a new DStream of (K, (V, W)) pairs with all pairs of elements for each key.

 

Q2:flume  与  spark streaming 适合 集群模式吗?

  • Flume与Spark Streaming是为集群而生的;

  • For input streams that receive data over the network (such as, Kafka, Flume, sockets, etc.), the default persistence level is set to replicate the data to two nodes for fault-tolerance.

  • Using any input source that receives data through a network - For network-based data sources like Kafka and Flume, the received input data is replicated in memory between nodes of the cluster (default replication factor is 2).

 

Q3:spark有缺点嘛?

  • Spark的核心缺点在于对内存的占用比较大;

  • 在以前的版本中Spark对数据的处理主要的是粗粒度的,难以进行精细的控制;

  • 后来加入Fair模式后可以进行细粒度的处理;

 

Q4:spark streming现在有生产使用吗?

  • Spark Streaming非常易于在生产环境下使用;

  • 无需部署,只需安装好Spark,,就按照好了Spark Streaming;

  • 国内像皮皮网等都在使用Spark Streaming;

© 著作权归作者所有

Spark亚太研究院
粉丝 76
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】 Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式 Client模式如...

Spark亚太研究院
2014/09/04
253
0
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用; 国内也有公司在使用; ...

Spark亚太研究院
2014/09/24
135
0
【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第17期互动问答分享】 Q1:为了加快spark shuffle 的执行速度是否可以把sparklocaldirs 指向一块固态硬盘上面,这样做是否有效果...

Spark亚太研究院
2014/10/17
195
0
【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1:jobserver 企业使用情况如何? 中国有一家视频网站已经使用超过JobServer超过半年的时间; 2013年和2...

Spark亚太研究院
2014/09/19
181
1
【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1:AppClient和worker、master之间的关系是什么? :AppClient是在StandAlone模式下SparkContext.runJob...

Spark亚太研究院
2014/10/08
128
0

没有更多内容

加载失败,请刷新页面

加载更多

Python如何实现单例模式?其他23中设计模式python如何实现?

单例模式主要有四种方法:new、共享属性、装饰器、import。 # __ new__方法:class Singleton(object): def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): ......

每天学Python
5分钟前
5
0
在正则表达式的上下文中,“懒惰”和“贪婪”是什么意思?

有人可以用一种可以理解的方式解释这两个术语吗? #1楼 贪婪意味着您的表情将匹配尽可能大的组,懒惰意味着它将匹配最小的组。 对于此字符串: abcdefghijklmc 这个表达式: a.*c 贪婪的匹...

技术盛宴
9分钟前
37
0
springboot web 大文件上传源代码

一、 功能性需求与非功能性需求 要求操作便利,一次选择多个文件和文件夹进行上传; 支持PC端全平台操作系统,Windows,Linux,Mac 支持文件和文件夹的批量下载,断点续传。刷新页面后继续传输...

东方雨
10分钟前
34
0
这五类人最适合转Web前端,有你吗?

互联网的高速发展促使互联网企业对于网站等页面的用户体验要求也越来越高,导致网站开发难度越来越大,于是一个新兴职业应运而生——web前端工程师。 因为互联网时代的高速发展,公司企业的迫...

梦想编程
17分钟前
39
0
vue打包后静态资源图片失效&&vue动态设置img的src不生效

vue打包后静态资源图片失效: 老版本中需要找到config/index.js,找build打包对象里的assetsPublicPath属性,默认值为/,更改为./就好了; 新版本中只有手动更改vue.config.js, 在里面配置p...

liulunsheng
31分钟前
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部