文档章节

Spark core基础

张泽立
 张泽立
发布于 08/20 21:46
字数 367
阅读 2
收藏 0

Spark

RDD的五大特性

  1. RDD是由一系列的Partition组成的,如果Spark计算的数据是在HDFS上那么partition个数是与block数一致(大多数情况)
  2. RDD是有一系列的依赖关系,有利于Spark计算的容错
  3. RDD中每一个算子实际上是作用在每一个partition的
  4. spark中分区器是作用在kv格式的RDD上的,如果这个RDD中存储的数据是二元组类型的话
  5. spark中的RDD会提供一系列的最佳位子

大概执行流程

Driver

  1. 分发task,实际上在分发task之前会调用RDD的一个方法(能够获取每一个partition的位置)
  2. 会将每一个task的计算结果拉回到Dirver端---大数据处理!!每一个task计算结果有可能会非常的大,容易造成OMM,很危险
  3. 强调: Driver是一个JVM进程

Woker进程

算子

Transformation类算子

  1. 特点,懒执行!!需要一个action类算子触发
  2. 具体的算子 map,filter,reduceByKey,flatMap

Action类算子

  1. 特点:会立即触发任务的执行
  2. 具体的算子 foreach,count

© 著作权归作者所有

共有 人打赏支持
张泽立
粉丝 36
博文 43
码字总数 70580
作品 0
武汉
程序员
私信 提问
Spark 的Core深入(二)

Spark 的 Core 深入(二) 标签(空格分隔): Spark的部分 一、日志清洗的优化: 1.1 日志清洗有脏数据问题 rdd.partitions.length rdd.cacherdd.count 一个分区默认一个task 分区去处理默认...

flyfish225
05/08
0
0
关于Spark 的一些调优选项(待完善)

各位看到的大侠们,,,,如果有什么问题,不要拍砖,后期进行完善。谢谢协助完善。 几个比较重要的配置属性: 1.手动启动集群 参数 含义 -i IP,--ip IP 要监听的IP地址或者 DNS 机器名 -p P...

Ryan-瑞恩
2015/08/28
0
3
Spark Core介绍以及架构

应用场景 Apache Spark 是加州大学伯克利分校的 AMP Labs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且...

wsc449
01/17
0
0
Hadoop2.7.4+Spark2.2.0滴滴云分布式集群搭建过程

1.在滴滴云申请三台服务器(CentOS系统64位7.3) 2.修改hosts文件 修改三台服务器的hosts文件,vim /etc/hosts(需要权限加上sudo vim /etc/hosts),在原文件的基础最后面加上: 修改完成后保存...

14142135623731
06/24
0
0
spark thriftserver运维

spark thriftserver运维: 在root@sparkmastermachine机器上 启动 thriftserver======================================================================================================......

月下独酌100
2015/08/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

java.util.concurrent.atomic.AtomicLong 源码

类图: 源码: package java.util.concurrent.atomic;import java.util.function.LongUnaryOperator;import java.util.function.LongBinaryOperator;import sun.misc.Unsafe;......

狼王黄师傅
21分钟前
1
0
Java每天10道面试题,跟我走,offer有!(六)

51.HashMap的实现原理 HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元,每一个Entry包含一个key-value键值对。HashMap基于hashing原理,我们通过put()和get()方法储...

Java干货分享
27分钟前
1
0
剧调查黑客偏爱用 Python,可能是世界上最好的语言

导读 Python 变得越来越流行,在之前 9 月份的 TIOBE 排行榜中,Python 甚至挤下 C++,拿到第三名。而这有一部分原因应当归于黑客对 Python 的热衷。 据 Threatpost 报导,在 Imperva 最近一...

问题终结者
32分钟前
1
0
apollo生产环境配置-实践笔记(附搭建框架图)

前言 我们这个月上线了apollo1.1.1版本(生产环境),目前一切运行良好,故在此记个笔记。 首先,附上流程图: 简要介绍 一套apollo portal配置管理服务来同时管理pro、dev环境,但pro、dev...

开源小菜鸟2333
34分钟前
3
0
angular6 利用 ngContentOutlet 实现组件位置交换

这篇文章主要介绍了angular6 利用 ngContentOutlet 实现组件位置交换(重排),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧 ngContentOutlet指令介绍 ngCont...

嫣然丫丫丫
41分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部