文档章节

初试spark java WordCount

m
 modprobe
发布于 2016/11/08 09:57
字数 373
阅读 17
收藏 0

初始环境:OS X 10.10.5

准备:boot2docker

进入boot2docker后安装 docker-spark  地址: https://github.com/sequenceiq/docker-spark 里面有很详细的介绍

我启动这个镜像的命令是 

docker run -it -p 8088:8088 -p 8080:8080 -p 9000:9000 -p 50070:50070 -p 8042:8042 -p 7077:7077 -p 4040:4040 -h sandbox sequenceiq/spark bash

还没大整明白,端口映射比较多

 

然后进入到下面的目录里

cd /usr/local/spark/examples/src/main/java/org/apache/spark/examples/

可以看到经典的JavaWordCount.java 的代码

我们在idea中建立一个JAVA的maven工程,只有一个依赖如下

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>1.6.0</version>
        </dependency>
    </dependencies>

将上面的代码JavaWordCount代码复制出来

打包前有一个地方需要注意下,勾选红框

然后在out目录下把跟module同名的jar文件上传到docker-spark中

准备测试文件:

随便建一个文本文件

然后上传到hdfs中

先创建一个目录

hdfs dfs -mkdir testdata

然后上传测试文件

hdfs dfs -put 1.txt /user/root/testdata

 

我们使用单机Spark Standalone Mode的方式来运行

进入

/usr/local/spark-1.6.0-bin-hadoop2.6/sbin

启动master

./start-master.sh

启动slave

./start-slave.sh sandbox:7077

 

准备就绪,进入到上传的jar文件目录下运行

spark-submit --master spark://sandbox:7077 --name WordCountByDH --class com.dh.WordCount --executor-memory 1G --total-executor-cores 2 wc.jar /user/root/testdata/1.txt

 

这样你就能看到运行的结果了

 

问题:再idea下运行是遇到下面这个问题,有几个内部类找不到了,还没解决:

 

本文转载自:http://www.cnblogs.com/modprobe/p/5193623.html

共有 人打赏支持
m
粉丝 1
博文 35
码字总数 0
作品 0
sbt 编译spark 的wordcount 程序

直接执行 sbt 会在当前目录下面创建 target 目录 sbt 的目录格局一般为 lib/ (该目录下存储与编译相关的 jar 文件) 复制 jar 文件 spark-assembly *hadoop2.5.1.jar 到 lib 目录下 ../spark...

MtrS
2015/01/05
0
0
Spark基本工作原理与RDD及wordcount程序实例和原理深度剖析

RDD以及其特点 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每...

qq1137623160
05/10
0
0
Java,Python,Scala比较(三)wordcount

  众所周知,wordcount在大数据中的地位相当于helloworld在各种编程语言中的地位。本文并不分析wordcount的计算方法,而是直接给出代码,目的是为了比较Spark中Java,Python,Scala的区别。...

jclian91
2017/11/17
0
0
Intellij idea配置Spark开发环境,统计哈姆雷特词频(2)

idea 新建maven 项目 输入maven坐标 编辑maven文件 中间层Spark,即核心模块Spark Core,必须在maven中引用。 编译Spark还要声明java8编译工具。 idea自动加载引用,在窗口左侧Project导航栏...

白头雁
07/26
0
0
Apache Spark源码分析-- Job的提交与运行

本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。 实验环境搭建 在进行后续操作前,确保下列条件已满足。 1. 下载spark binary 0.9.1 2. 安装scala 3. ...

超人学院
2015/05/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

centos7安装Nginx

安装所需环境 一. gcc 安装 安装 nginx 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果没有 gcc 环境,则需要安装: yum install gcc-c++ 二. PCRE pcre-devel 安装 PCRE(Perl Co...

狼王黄师傅
22分钟前
1
0
dubbo+apollo微服务开发指南

为了大家比较快速的开发微服务,规范dubbo,spring,mybatis,hessian,netty的版本和用法,我写了一个demo,下面对demo的功能做个简单的介绍,如有疑问的地方,可以私下问我。 微服务项目示例 ...

PageYi
24分钟前
1
0
android流式布局、待办事项应用、贝塞尔曲线、MVP+Rxjava+Retrofit、艺术图片应用等源码

Android精选源码 android模仿淘宝首页效果源码 一款艺术图片应用,采用T-MVVM打造 Android MVP + RxJava + Retrofit项目 android流式布局实现热门标签效果 android仿淘宝客户端商品详情页效果...

Android爱开源
27分钟前
2
0
一步一步安装hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto d......

hnairdb
30分钟前
2
0
【WebService 系列二 使用JAX-WS开发示例程序】

1、服务端代码 1.1、编写SEI SEI即(Service Endpoint Interface)SEI在ws中称为portType,在java中称为接口 package jaxws.server;/** * @className: HelloService * @description: jax......

HansonReal
39分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部