文档章节

部署Spark 0.9集群

Moks角木
 Moks角木
发布于 2015/12/02 19:24
字数 551
阅读 1349
收藏 59

Spark 0.9

1 部署Spark集群

这种是运维人员在生产环境下,搭建起一个Spark集群。

(可选)创建新用户 Spark

一般我倾向于把需要启动daemon进程,对外提供服务的程序,即服务器类的程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。

创建一个新的group,

$ sudo groupadd spark

创建一个新的用户,并加入group,

$ sudo useradd -g spark spark

给新用户设置密码,

$ sudo passwd spark

在每台机器上创建 spark 新用户,并配置好SSH无密码,参考我的另一篇博客,SSH无密码登录的配置

假设有三台机器,hostname分别是 master, worker01, worker02。

1.1 下载 Spark 预编译好的二进制包

如果你需要用到HDFS,则要针对Hadoop 1.x 和Hadoop 2.x 选择不同的版本。这里我选择 Hadoop 2.x 版。

spark@master $ wget http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating-bin-hadoop1.tgz
spark@master $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt

1.2 将tgz压缩包scp到所有机器,解压到相同的路径

spark@master $ scp spark-0.9.0-incubating-bin-hadoop1.tgz spark@worker01:~
spark@master $ ssh worker01
spark@worker01 $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
spark@worker01 $ exit
spark@master $ scp spark-0.9.0-incubating-bin-hadoop1.tgz spark@worker02:~
spark@master $ ssh worker02
spark@worker02 $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
spark@worker02 $ exit

1.3 修改配置文件

Spark 0.9 以后,配置文件简单多了,只有一个必须要配置,就是 conf/slaves 这个文件。在这个文件里添加slave的hostname。

1.4 拷贝配置文件到所有slave

spark@master $ spark@master $ scp ./conf/slaves spark@worker01:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf
spark@master $ spark@master $ scp ./conf/slaves spark@worker02:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf

1.5 启动Spark集群

spark@master $ ./sbin/start-all.sh

也可以一台一台启动,先启动 master

spark@master $ ./sbin/start-master.sh

启动两台 slave,

spark@worker01 $ ./sbin/start-slave.sh 1 spark://master:7077
spark@worker02 $ ./sbin/start-slave.sh 2 spark://master:7077

其中,12 是 worker的编号,可以是任意数字,只要不重复即可,spark://master:7077 是 master 的地址。以后向集群提交作业的时候,也需要这个地址。

1.6 测试一下,向集群提交一个作业

spark@master $ ./bin/run-example org.apache.spark.examples.SparkPi spark://master:7077


© 著作权归作者所有

共有 人打赏支持
Moks角木
粉丝 32
博文 232
码字总数 162366
作品 0
静安
架构师
私信 提问
加载中

评论(4)

笔阁
笔阁
推荐一本机工社的经典书籍《spark大数据处理》:
http://www.hubwiz.com/books
Leon温陵
Leon温陵
spark都1.5了
shixiao
shixiao
1.3 怎么配置,配置文件的内容也贴出来吧
羊八井
羊八井
这个也太老了吧……
Spark 独立部署模式

除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在...

vincent_hv
2013/10/14
6K
2
重磅!Google宣布为Spark推出Kubernetes Operator

“Spark Operator”测试版允许在Kubernetes集群上执行原生Spark应用程序,不需要Hadoop或Mesos。 Apache Spark是一个非常流行的执行框架,通常用在数据工程和机器学习领域。支撑Databricks ...

OpenShift开源社区
02/01
0
0
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许...

阿里云云栖社区
2018/04/17
0
0
部署Spark2.2集群(on Yarn模式)

版权声明:欢迎转载,请注明出处,谢谢。 https://blog.csdn.net/boling_cavalry/article/details/86795338 机器规划 本次实战用到了三台CentOS7的机器,身份信息如下所示: 要注意的地方: ...

博陵精骑
02/09
0
0
Spark笔记整理(三):Spark WC开发与应用部署

[TOC] Spark WordCount开发 创建的是maven工程,使用的依赖如下: spark wc之Java版本 本地执行,输出结果如下: ###spark wc之Java lambda版本 本地执行,输出结果如下: spark wc之scala版...

xpleaf
2018/04/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何有效的背单词

转眼间到了大三快要结束了。英语四级考了三次了,每次都220多分。成绩很稳定,但离四级线还有200多分。学校规定如果过不了四级线,就拿不到学士学位证。没有学位证就找不到好工作,找不到好工...

我是菜鸟我骄傲
30分钟前
1
0
导出表格

https://blog.csdn.net/hhzzcc_/article/details/80419396

Js_Mei
54分钟前
0
0
Ubuntu中安装Elasticsearch

1.安装jre elasticsearch是使用java开发的搜索引擎,因此其运行依赖于java runtime environment,我们在这里不使用Oracel的官方jre,改为使用open-jre。 运行环境: ubuntu:18.04 jre:openj...

cloes
今天
0
0
nginx rails 详细站点配置入门教程

Ruby on Rails 是一个用于开发数据库驱动的网络应用程序的完整框架。Rails基于MVC(模型- 视图- 控制器)设计模式。从视图中的Ajax应用,到控制器中的访问请求和反馈,到封装数据库的模型,R...

xiangyunyan
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部