文档章节

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节②

Spark亚太研究院
 Spark亚太研究院
发布于 2014/12/29 21:51
字数 208
阅读 138
收藏 0

3 月,跳不动了?>>>

三, Spark的RDD

在Spark中一切都是以RDD为基础和核心的:

 

每个RDD的API如下所示:

Spark官方文档中给出了的众多的RDD:

RDD中的操作分为transformations和actions两种:

下面举一个例子来说明RDD的使用:

另外有两个特殊的RDD:

他们都是controlling operations:

RDD在执行的时候都是并行的:

四, Spark的高容错机制lineage

基于DAG图,lineage是轻量级而高效的:

操作之间相互具备lineage的关系,每个操作只关心其父操作,各个分片的数据之间互不影响,出现错误的时候只要恢复单个Split的特定部分即可:

 

© 著作权归作者所有

Spark亚太研究院
粉丝 76
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
加载中

评论(0)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(13)

从控制台可以看到我们的程序成功在集群上运行: Detail for stage 1: Detail for Stage 0: 查看一下Executors的信息: 上述信息表明程序成功在Spark集群上运行。 第四步:基于IDEA构建Spark...

Spark亚太研究院
2014/11/20
295
0
OSC 第 65 期高手问答 — Spark 企业级实战

OSCHINA 本期高手问答(3月23日-3月29日)我们请来了 @王家林 (王家林)为大家解答关于 Spark 开发方面的问题。 王 家林,Spark 亚太研究院院长和首席专家,当今云计算领域最火爆的技术Docke...

叶秀兰
2015/03/23
6.4K
22
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
1.7K
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
461
2
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(9)

第二步:构造分布式的Spark1.0.2集群 1,下载Scala 2.10.4,具体下载地址: http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行...

Spark亚太研究院
2014/11/17
259
0

没有更多内容

加载失败,请刷新页面

加载更多

为什么不能在网上做 mmpi明尼苏达多项人格测验

在网上看了很多文章,知乎上也看了不少大侠的文字,也就是说,网上做测试是不行的!所以,引出这个话题: 为什么不能在网上做 mmpi 明尼苏达多项人格测验? 1、mmpi是一个专业的测试量表 说不...

蛤蟆丸子
13分钟前
3
0
idea 子模块删除后 再创建同名的子模块时, 子模块目录右下角没有蓝色的maven的标识 解决方法

同名子模块创建后,如图所示操作 记得选择maven工程,将对应的子目录包添加进去

ATOZ_HJ
17分钟前
9
0
教你如何隐藏 Ubuntu 18.04 左上方的“活动”按钮

本快速教程介绍了如何删除Ubuntu Gnome桌面顶部栏左上角的“活动”按钮。 左上角的“活动”按钮显示所有打开的应用程序窗口,顶部带有搜索框,右侧是工作区。 一些用户发现它无用,并希望删除...

linuxprobe2020
23分钟前
7
0
SQL优化还凭经验?这个工具能帮你智能优化SQL

前言 SQL优化是程序开发中经常遇到的问题,尤其是在程序规模不断扩大的时候。SQL的好坏不仅制约着程序的规模,影响着用户的体验,甚至威胁着信息的安全。 我们经常听到说哪家平台挂了,哪家网...

吴伟祥
46分钟前
26
0
如何在一台服务器上添加和管理多个WEB站点?

网络上的每一个Web站点都有一个惟一的身份标识,从而使客户机能够准确地访问。这一标识由三部分组成,即TCP端口号、IP地址和主机头名,通常有三种不同的实现途径。 通常情况下我们只会想到利...

BirdCloud
49分钟前
20
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部