文档章节

第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming

jcchoiling
 jcchoiling
发布于 2016/05/10 00:00
字数 463
阅读 57
收藏 1

从昨天第一课的黑名单过滤的案例中,我們可以看見其實一個Spark Streaming 程序,里面會自動生成很多不同的作業,可以用以下的圖,去理解什麼是DStream,它跟RDD 之間有什麼不同。

簡單說 DStream 是Batch Process +RDD ,在每一段時間間隔里會產生 RDD。

下圖是一個 Y 轴跟 X 轴組成的一張圖。

Y 轴是空間維度,代表是 RDD 的依賴關係構成的具體的處理邏輯的步驟,是用DStream Graph 來表示的。

X 轴是時間維度,按照特定時間間隔不斷的生成 Job 的實例並在集群上運行。

DStream 跟 RDD 的 空間維度是一樣的,只不過是時間維度不同 導致每次處理的數據跟結果不一樣而已。隨著時間的流程基於 DStream Graph 不斷的生成以 RDD Graph 也就是 DAG 的方式產生 Job 並通過 Job Scheduler 的线程池的方式提交給 Spark Cluster 不斷的執行。


以下5點是很重要的:

  1. 需要 RDD DAG 的生成模板

  2. 需要基於 Timeline 的 Job 控制器

  3. InputStream 和 OutputStream 代表數據的輸入和輸出

  4. 具體 Job 運行在 Spark Cluster 之上,此時系統容錯就至關重要

  5. 事務處理,在處理出現崩潰的情況下如何保證 Exactly Once 的事務意義





Thanks for reading

Janice

——————————————————————————————–
Reference: DT大数据梦工厂SPARK版本定制課程 – 第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构


Sharing is Good, Learning is Fun.
今天很残酷、明天更残酷,后天很美好。但很多人死在明天晚上、而看不到后天的太阳。 –马云 Jack Ma



© 著作权归作者所有

jcchoiling
粉丝 2
博文 10
码字总数 7074
作品 0
香港
私信 提问
第3课:通过案例对SparkStreaming 透彻理解三板斧之三:解密SparkStreaming

第一部份 课堂的第一部份是用IMF 晚上案例实战课的程序再运行一次,把数据再次输入数据库里面,从图一你可以看出里面有很多运行细节,例如receiver.ReceiverSupervisor,receiver.BlockManag...

jcchoiling
2016/05/09
67
0
Ls 1 - Understanding the nature of Spark Streaming

What is Spark Streaming? According to the Official Apache Spark website, Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tole......

jcchoiling
2016/05/09
801
0
通过案例对SparkStreaming透彻理解-3

本期内容: 解密Spark Streaming Job架构和运行机制 解密Spark Streaming 容错架构和运行机制   一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力...

柯里昂
2016/05/04
292
0
第1课:通过案例对Spark Streaming透彻理解

一.SparkStreaming在线另类实验 如何清晰的看到数据的流入、被处理的过程?使用一个小技巧,通过调节放大BatchInterval的方式,来降低批处理次数,以方便看清楚各个环节。我们从已写过的广告...

天蓝一枫
2016/05/08
2.5K
0
Spark Streaming流式处理

Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式......

jiFeng丶
2018/07/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
今天
5
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
今天
8
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
12
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
16
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
20
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部