文档章节

spark整合hadoop

泡海椒
 泡海椒
发布于 2017/01/12 19:37
字数 621
阅读 13
收藏 2

Spark应用程序有两部分组成
1.Driver 2 Executor
Spark基本概念
Application基于Spark的用户程序,包含一个Driver 和集群的多个executor
Driver program运行Application的main函数并创建SparkContext通常用SparkContxet代表Driver Programe
Executor是为某Application运行在work node上的一个进程,该进程负责运行task,并且负责将数据存在内存
或者磁盘上,每个Application都有各自独立的executor
Cluster manager,在集群上获取集群资源的外部服务列如Standalone,Mesos ,yarn
worker node 集群中任何可以运行application代码的节点
task被送到某个executor的工作单元
job包含多个task组成的并行运算,往往由spark action催生,该术语可以经常在日志中看到
rdd由spark的基本计算单元,可以通过一系列算子操作,主要有transaformation和action操作
并行化scala集合
spark使用parallelize方法转换成RDD
val rdd1=sc.parallelize(Array(1,2,3,4,5))
val rdd2=sc.parallelize(List(0 to 10),5)
参数是slice对数据集切片,每一个slice启动一个task进行处理
Spark支持text files可以支持读取本地文件,支持整个目录读取,压缩文件的读取gzip 通配符的读取第二个参数是分片可选
使用wholeTextFiles读取目录里面的小文件
使用sequenceF可以将sequenceFile转换成rdd
使用hadoopRDD方法可以将其他任何hadoop的输入类型转化为RDD
广播变量
广播变量缓存到各个节点内存中,而不是每个task
广播变量创建后,能在任何运行的函数中调用
广播变量是只读的,不能在广播后修改
对于大数据集的广播,spark尝试用高效的传播算法来降低通信成本
使用方法 val broadcastVar=sc.broadcast(Array(1,2,3))
broadcastVar.value
累加器
累加器只支持加法操作
累加器可以高效的并行,用于实现计数器和变量求和
Spark支持原生类型和标准可变的集合计数器,但用户可以添加新的类型
只有驱动程序才能获取累加器的值
使用方法
val accnum=sc.accumulator(0)
sc.parallelize(Array(1,2,3,4)).foreach(x=>accnum+=x)
accnum.value


spark要启动start all
[root@localhost bin]# ./spark-submit --master spark://127.0.0.1:7077 --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output
./spark-submit --master  --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output

© 著作权归作者所有

上一篇: log
下一篇: Spark部署
泡海椒
粉丝 11
博文 282
码字总数 288344
作品 0
成都
程序员
私信 提问
MapReduce和Spark的区别

性能: Spark是在内存中处理数据的,而MapReduce是通过map和reduce操作在磁盘中处理数据,所以正常情况下Spark的处理速度会比mapreduce快。但是当数据量大,不能一次性加载到内存的时候,Spa...

无精疯
04/15
106
0
Hadoop、storm和Spark Streaming简单介绍(非原创)

文章大纲 一、Hadoop是什么 二、storm是什么 三、Spark Streaming是什么 四、Spark与storm比较 五、参考文章 一、Hadoop是什么 1. 简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架...

故事爱人
06/14
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
432
2
/usr/spark/sbin/start-all.sh 启动 spark失败,怎么搞

@eagleonline 你好,想跟你请教个问题: /usr/spark/sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /usr/spark/sbin/../logs/spark-hadoop-org.apache.sp......

天池番薯
2015/09/24
11.2K
3
SequoiaDB(巨杉数据库)成为国内首家Spark认证数据库

近日,Spark的官方博客中刊登了其全球战略合作伙伴SequoiaDB发布的技术博客,介绍SequoiaDB对于Spark的整合以及SequoiaDB+Spark的解决方案。目前,SequoiaDB也成为了Spark官方认证的全球合作...

ark43420
2015/08/04
1
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot 2 实战:使用 Spring Boot Admin 监控你的应用

1. 前言 生产上对 Web 应用 的监控是十分必要的。我们可以近乎实时来对应用的健康、性能等其他指标进行监控来及时应对一些突发情况。避免一些故障的发生。对于 Spring Boot 应用来说我们可以...

码农小胖哥
今天
6
0
ZetCode 教程翻译计划正式启动 | ApacheCN

原文:ZetCode 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 ApacheCN 学习资源 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 ...

ApacheCN_飞龙
今天
4
0
CSS定位

CSS定位 relative相对定位 absolute绝对定位 fixed和sticky及zIndex relative相对定位 position特性:css position属性用于指定一个元素在文档中的定位方式。top、right、bottom、left属性则...

studywin
今天
7
0
从零基础到拿到网易Java实习offer,我做对了哪些事

作为一个非科班小白,我在读研期间基本是自学Java,从一开始几乎零基础,只有一点点数据结构和Java方面的基础,到最终获得网易游戏的Java实习offer,我大概用了半年左右的时间。本文将会讲到...

Java技术江湖
昨天
7
0
程序性能checklist

程序性能checklist

Moks角木
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部