文档章节

本地开发spark代码上传spark集群服务并运行(基于spark官网文档)

stark_summer
 stark_summer
发布于 2015/01/08 18:51
字数 285
阅读 94
收藏 0

打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下

import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp {  def main(args: Array[String]) {    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system    val conf = new SparkConf().setAppName("Simple Application")    val sc = new SparkContext(conf)    val logData = sc.textFile(logFile, 2).cache()    val numAs = logData.filter(line => line.contains("a")).count()    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件:

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices 


点击Output Layout  看看是否没有第三方jar包,因为你使用spark集群环境,所以你不需要第三方jar包


重新build:

Build-->>Build Artifcat ..--->>build 或者rebuild




执行后 就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar


上传到spark集群服务器的 spark_home下的myApp下


上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中


提交spark任务:

 ./bin/spark-submit  --class "SimpleApp" --master local[4]  myApp/study-scala.jar



执行结果为a:60,b:29


© 著作权归作者所有

stark_summer
粉丝 61
博文 75
码字总数 51050
作品 0
朝阳
CEO
私信 提问
加载中

评论(0)

Spark新手入门——3.Spark集群(standalone模式)安装

主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看 二. Hadoop集群(伪分布模式)安装 查看 三. Spark集群(standalone模式)安装 Spark集群(standalone模式)安装 若使用spark对本地...

osc_6pcuizwz
2018/07/15
2
0
MaxCompute Spark开发指南

概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计...

zhaowei121
2019/03/11
9
0
从0开始学习spark的学习笔记(1)

所谓学习是要在快乐中进行的,这是我用了多年的桌面壁纸现在传给大家。 Spark零基础入门第一课 1.大数据生态简介: 2.Spark 简介: 3. spark 本地安装和集群安装: 3.1 spark下载选择 4. spa...

蛋蛋淡淡定
04/21
0
0
[转] Spark快速入门指南 – Spark安装与基础使用

[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月12日 11:35:27 阅读数:104 本教程由给力星出品,转载请注明。 Ap...

osc_ld3u7lka
2018/07/27
3
0
spark教程(一)-集群搭建

spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入...

osc_dmzfpa0c
2019/10/02
1
0

没有更多内容

加载失败,请刷新页面

加载更多

daily work report on May 25,2020

React-Native工程师 岗位要求 1、三年以上基于React-Native技术完成电商平台app混合开发实际工作经验,熟悉电商平台相关业务。 2、能熟练掌握React-Native,并能基于该技术独立完成相关工作,...

qwfys
3分钟前
13
0
HTTP/3 未来可期?

点击上方“朱小厮的博客”,选择“设为星标” 后台回复"加群",加入新技术 2015 年 HTTP/2 标准发表后,大多数主流浏览器也于当年年底支持该标准。此后,凭借着多路复用、头部压缩、服务器推...

osc_3b0dcpcm
5分钟前
5
0
【原创】JVM系列01 | 开篇

  20大进阶架构专题每日送达   1. Java 虚拟机是什么? 1.1 虚拟机   虚拟机:虚拟的计算机,一个用来执行虚拟计算机指令的软件。   虚拟机分为系统虚拟机和程序虚拟机。   系统虚...

osc_0k23td2u
6分钟前
4
0
Flink 1.10 细粒度资源管理解析

相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题,比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Mesos kill 掉[1],再比...

osc_n0c6719w
7分钟前
8
0
IDEA使用技巧-->查看继承关系

在开发中项目庞大的时候你会不知道当前类在项目中的使用情况,在哪被继承?在哪被实现?和谁有关联? 快捷键 eclipse中是: ctrl+tidea中是: ctrl+H点击当前类, 然后ctrl+H...

宇宝
8分钟前
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部