文档章节

spark集群

 空灵飞渡
发布于 2017/05/03 11:24
字数 568
阅读 10
收藏 0

安装包:http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
              http://www.scala-lang.org/download/2.12.2.html
        
环境基于Hadoop的,前面已搭建完成

设置spark环境变量
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark-2.1.0/
export PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin

修改配置文件
cd /usr/local/spark-2.1.0/conf
cp spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

#eventLog是否生效(建议开启,可以对已完成的任务记录其详细日志)
spark.eventLog.enabled          true
#eventLog是否启用压缩(cpu性能好的情况下建议开启,以减少内存等的占用) 
spark.eventLog.compress         true
#eventLog的文件存放位置,与spark-env.sh中的history server配置位置一致,这两个位置必须手动创建 hadoop fs -mkdir -p /tmp/spark/applicationHistory,否则spark启动失败
spark.eventLog.dir              hdfs://10.68.4.49:9000/tmp/spark/applicationHistory
#广播块大小 
spark.broadcast.blockSize       8m
#Executor的cpu核数
spark.executor.cores            1
#Executor的内存大小
spark.executor.memory           512m
#Executor心跳交换时间间隔
spark.executor.heartbeatInterval        20s

#文件抓取的timeout
spark.files.fetchTimeout        120s
#作业最大失败次数(达到此次数后,该作业不再继续执行,运行失败)
spark.task.maxFailures          6
#设置序列化机制(默认使用java的序列化,但是速度很慢,建议使用Kryo)
spark.serializer                org.apache.spark.serializer.KryoSerializer
#序列化缓冲大小
spark.kryoserializer.buffer.max         256m
#Akka调度帧大小
#spark.akka.frameSize            128   
spark.rpc.message.maxSize       128
#默认并行数
spark.default.parallelism       20
#最大网络延时
#spark.network.timeout           300s                 #最大网络延时
spark.speculation               true                      #Spark推测机制(建议开启)

vim spark-env.sh
SPARK_LOCAL_IP=10.68.4.49
 #本机ip或hostname
SPARK_LOCAL_DIRS=/data/spark/local
 #配置spark的local目录
SPARK_MASTER_IP=10.68.4.49
#master节点ip或hostname
SPARK_MASTER_WEBUI_PORT=8080
 #web页面端口

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=4"
 #spark-shell启动使用核数
SPARK_WORKER_CORES=4
 #Worker的cpu核数
SPARK_WORKER_MEMORY=4g
#worker内存大小
SPARK_WORKER_DIR=/data/spark/work
#worker目录
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800"
#worker自动清理及清理时间间隔
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -             Dspark.history.fs.logDirectory=hdfs://10.68.4.49:9000/tmp/spark/applicationHistory"
 #history server页面端口、备份数、log日志在HDFS的位置
SPARK_LOG_DIR=/data/log/spark
 #配置Spark的log日志目录

export JAVA_HOME=/data/java/jdk                                       #配置java路径
export SCALA_HOME=/usr/local/scala                                    #配置scala路径

export SPARK_MASTER_HOST=10.68.4.49
export SPARK_WORKER_MEMORY=10240m

export HADOOP_HOME=/usr/local/hadoop/lib/native              #配置hadoop的lib路径
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/  #配置hadoop的配置路径

复制到其它从服务器
scp -r /usr/local/spark-2.1.0 slave:/usr/local
修改spark-env.sh文件中的SPARK_LOCAL_IP地址为自己的ip地址

cd /usr/local/spark-2.1.0/sbin
./start-all.sh
jps 查看
主显示master  从显示worker

© 著作权归作者所有

上一篇: hbase集群
下一篇: Hadoop集群部署
粉丝 3
博文 180
码字总数 82224
作品 0
广州
私信 提问
Spark 独立部署模式

除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在...

vincent_hv
2013/10/14
6K
2
spark单机模式 和 集群模式 安装

1.spark单机模式安装 实现步骤: 1)安装和配置好JDK 2)上传和解压Spark安装包 3)进入Spark安装目录下的conf目录 复制conf spark-env.sh.template 文件为 spark-env.sh 在其中修改,增加如...

仟昭
03/01
0
0
搭建Spark集群?没想到你是这样的k8s

在本文的例子中,你将使用 Kubernetes 和 Docker 创建一个功能型Apache Spark集群。 你将使用Spark standalone模式 安装一个 Spark master服务和一组Spark workers。 对于已熟悉这部分内容的...

时速云
2016/08/24
572
0
Spark 数据分析导论-笔记

Spark Core Spark Core 实现了Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。 Spark Core 中还包含了 对弹性分布式数据集(resilient distributed dataset,简...

Java搬砖工程师
2018/12/26
0
0
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许...

阿里云云栖社区
2018/04/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

使用kubeadm 搭建K8s集群

1. 参考官网 https://kubernetes.io/docs/setup/independent/install-kubeadm/

whhbb
26分钟前
2
0
Dubbo 3.0 !提升不止一点点!

Dubbo 自 2011 年 10 月 27 日开源后,已被许多非阿里系的公司使用,其中既有当当网、网易考拉等互联网公司,也不乏中国人寿、青岛海尔等大型传统企业。 自去年 12 月开始,Dubbo 3.0 便已正...

编程SHA
27分钟前
2
0
提升不止一点点,Dubbo 3.0 预览版详细解读

Dubbo 自 2011 年 10 月 27 日开源后,已被许多非阿里系的公司使用,其中既有当当网、网易考拉等互联网公司,也不乏中国人寿、青岛海尔等大型传统企业。更多用户信息,可以访问Dubbo @GitHub...

阿里云云栖社区
30分钟前
13
0
HanLP Analysis for Elasticsearch

基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x; 内置词典,无需额外配置即可使用; 支持用户自定义词典; 支持远程词典热更新(待开发); 内置多种分词模式,适合...

左手的倒影
52分钟前
1
0
spark部署之yarn模式

spark部署之yarn模式 hadoop-3.0.0集群搭建 配置相应环境 java环境 scala(可配可不配) hadoop环境 从官网下载spark 解压 配置 /conf/spark-env.sh export JAVA_HOME=/usr/java/jdk1.8.0_4...

jackmanwu
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部