文档章节

Spark本地开发环境搭建

翟志军
 翟志军
发布于 2016/01/25 13:17
字数 404
阅读 7170
收藏 128

本文使用Scala2.10.6,sbt。请自行提前装好。

设置SSH,本地免密码登录

因为Spark master需要ssh到Spark worker中执行命令,所以,需要免密码登录。

cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys

执行ssh localhost确认一下,如果不需要密码登录就说明OK了。

Tips: Mac下可能ssh不到本地,请检查你sharing设置:

输入图片说明

下载Spark

http://spark.apache.org/downloads.html

我选择的是spark-1.6.0-bin-cdh4.tgz 。看到cdh4(Hadoop的一个分发版本),别以为它是要你装Hadoop。其实不然,要看你自己的开发需求。因为我不需要,所以,我只装Spark。

配置你的Spark slave

我很好奇,worker和slave这个名称有什么不同?还是因为历史原因,导致本质上一个东西但是两种叫法?

在你的Spark HOME路径下

cp ./conf/slaves.template ./conf/slaves

slaves文件中有一行localhost代表在本地启动一个Spark worker。

启动Spark伪分布式

<SPARK_HOME>/sbin/start-all.sh

执行JPS验证Spark启动成功

➜ jps
83141 Worker
83178 Jps
83020 Master

打开你的Spark界面

http://localhost:8080 输入图片说明

下载Spark项目骨架

为方便我自己开发,我自己创建了一个Spark应用开发的项目骨架。

  1. 下载项目骨架: http://git.oschina.net/zacker330/spark-skeleton

  2. 项目路径中执行:sbt package 编译打包你的spark应用程序。

将你的spark应用程序提交给spark master执行

    <SPARK_HOME>/bin/spark-submit \ 
          --class "SimpleApp" \
          --master spark://Jacks-MBP.workgroup:7077 \
              target/scala-2.10/spark-skeleton_2.10-1.0.jar

这个“spark://Jacks-MBP.workgroup:7077”是你在 http://localhost:8080 中看到的URL的值

可以看到打印出: hello world

© 著作权归作者所有

共有 人打赏支持
翟志军

翟志军

粉丝 344
博文 76
码字总数 79851
作品 2
深圳
程序员
私信 提问
加载中

评论(2)

叫我刀刀
叫我刀刀
https://hub.docker.com/r/sequenceiq/spark/
叫我刀刀
叫我刀刀
不错
本地windows跑Scala程序调用Spark

应用场景 spark是用scala写的一种极其强悍的计算工具,spark内存计算,提供了图计算,流式计算,机器学习,即时查询等十分方便的工具,所以利用scala来进行spark编程是十分必要的,下面简单书...

wsc449
2017/11/21
0
0
本地windows跑Python程序调用Spark

应用场景 spark是用scala写的一种极其强悍的计算工具,spark内存计算,提供了图计算,流式计算,机器学习,即时查询等十分方便的工具,当然我们也可以通过python代码,来调用实现spark计算,...

wsc449
2017/11/22
0
0
windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
0
0
Windows端部署Scala2.10.5开发环境

应用场景 如果没有服务器环境,可以在本地搭建Scala开发环境,单机版,然后安装IDE编程工具,就可以在本地机器上进行scala程序的开发! 操作步骤 1. 首先安装jdk1.8 配置环境变量等 jdk1.8下...

wsc449
2017/11/21
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)

第四步:通过Spark的IDE搭建并测试Spark开发环境 Step 1:导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入...

Spark亚太研究院
2014/09/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

solr使用规范

0. 目的 规范solr设计、用法,避免bug,提高性能 1. 设计规范 solr的用途是查询,不是存储,建议查询结果尽量都为id主键,而后再拿该id主键到缓存或者db中再查询相关信息,例如:请勿将经销商...

andersChow
17分钟前
1
0
11-《深度拆解JVM》之Java对象的内存布局

一、问题引入 在 Java 程序中,我们拥有多种新建对象的方式。除了最为常见的 new 语句之外,我们还可以通过反射机制、Object.clone 方法、反序列化以及 Unsafe.allocateInstance 方法来新建对...

飞鱼说编程
21分钟前
1
0
Windows Install Docker

win7、win8 win7、win8 等需要利用 docker toolbox 来安装,国内可以使用阿里云的镜像来下载,下载地址:http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/ docker toolbox...

linuxprobe16
26分钟前
1
0
混合云环境中扩展Kubernetes的挑战及方案

流量突增时,我们需要扩展应用程序以满足用户需求。本文分享了扩展Kubernetes以及管理混合云环境时可能遇到的挑战,以及如何简单高效地完成Kubernetes扩展。 引 言 假设您的业务是在线的:您...

RancherLabs
34分钟前
1
0
Java集合小抄

Java集合小抄 1. List 1.1 ArrayList 以数组实现。节约空间,但是数组有容量限制。超出限制时会增加50%容量,用System.arraycopy()复制到新的数组。因此最好能给出数组大小的预估值。默认第一...

傅小水water
42分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部