文档章节

Spark1.6 on YARN 部署

Liam8
 Liam8
发布于 2016/04/11 10:36
字数 504
阅读 112
收藏 1

#标题:Spark1.6 on YARN 部署

#1.说明:

  1. 首先要部署好Hadoop集群包括HDFS和YARN,这里不再赘述.
  2. Spark on YARN模式,不需要启动spark的master和worker,master的工作由YARN完成.
  3. 相关路径根据实际情况修改.
  4. 1.4和1.6版本部署过程类似.

#2.部署

##下载 从官网(http://spark.apache.org/)下载对应Hadoop版本的包,如spark-1.6.1-bin-hadoop2.4.tgz. 解压至某个目录,如"/usr/local/hadoop/spark-1.6.1-bin-hadoop2.4". 解压后得到如下文件

##配置

配置文件在conf目录中.

###配置环境变量 cp spark-env.sh.template spark-env.sh

在spark-env.sh中添加如下: export HADOOP_HOME=/usr/local/hadoop/hadoop-2.4.1 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/

###配置spark选项 cp spark-defaults.conf.template spark-defaults.conf 添加如下: spark.master yarn #指定使用yarn spark.driver.memory 1g #指定driver使用的内存 spark.executor.memory 512m #指定executor使用的内存

选填: spark.executor.extraClassPath /data/hadoop/hadoop/hadoop2.4.1/share/hadoop/common/lib/hadoop-lzo-0.4.20.jar spark.driver.extraClassPath /data/hadoop/hadoop/hadoop2.4.1/share/hadoop/common/lib/* spark.kryoserializer.buffer.max 256m

另外也可以设置一下Spark的log4j配置文件,使得屏幕中不打印额外的INFO信息: cp log4j.properties.template log4j.properties 修改一行 log4j.rootCategory=WARN, console

##启动一个spark应用 执行 ./bin/spark-shell

输出将包括如下所示

浏览器访问当前机器的8088端口,将可以看到当前启动的driver的web界面,如下:

点击'Environment'标签,将可以看到相关环境变量和属性的值.

浏览器访问YARN的管理页面,可以看到有一个SPARK应用正在运行(如下),至此spark就可以跑在YARN上了.

#3.运行模式 Spark on YARN有两种运行模式cluster和client,spark-shell和spark-sql交互式的应用只支持client模式. 两种模式区别如下:

从广义上讲,yarn-cluster适用于生产环境;而yarn-client适用于交互和调试,也就是希望快速地看到application的输出。

可以参kao这篇博客:Spark:Yarn-cluster和Yarn-client区别与联系(http://www.iteblog.com/archives/1223).

#4.参kao文献: Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html

原文链接:http://liam8.ml/2016/03/29/spark-on-yarn/

© 著作权归作者所有

Liam8
粉丝 8
博文 6
码字总数 3082
作品 0
深圳
私信 提问
加载中

评论(1)

Liam8
Liam8 博主
OSC敏感词检测功能是谁实现的,敢不敢站出来38
Spark On Yarn 中出现的问题记录

1:运行候一直retry master:8032的问题 分析:可能是因为yarn没有启动。 解决:检查是否启动了服务. 用jps命令查看相关信息[是否存在ResourceManager] 2: mory used; 2.2 GB of 2.1 GB virtu...

那年的暖风
2018/09/27
22
0
Drill-on-YARN之部署

概要 Drill是Apache旗下的一个开源SQL查询引擎,可用于探索大数据。它的设计初衷是为了支持对大数据的高性能分析,同时支持行业标准查询语言ANSI SQL。 在Drill 1.13之前,Drill只支持独立集...

xjy4j
2018/08/28
98
0
Spark在不同集群中的运行架构

Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分...

姚兴泉
2018/08/07
0
0
Storm On Yarn 安装部署

安装 JDK7 和 Maven 部署Hadoop2集群,并启动yarn http://my.oschina.net/zc741520/blog/362824 下载 Storm on Yarn [grid@hadoop4 ~]$ wget https://github.com/yahoo/storm-yarn/archive/m......

张超
2015/05/25
830
0
Spark的运行架构分析(二)之运行模式详解

在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式 本博客转载自https://blog.csdn.net/gamer_gyt/article...

lubin2016
2018/04/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
今天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
今天
27
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
今天
63
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
今天
58
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
今天
59
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部