文档章节

从零开始学习Spark--第3章 spark的example

brian_2017
 brian_2017
发布于 2017/01/17 09:37
字数 524
阅读 24
收藏 0
1. 计算Pi值


1.1 命令行:


#spark安装在/home/brian/setup/spark-new/spark-0.8.0目录
cd /home/brian/setup/spark-new/spark-0.8.0


#在本地运行计算Pi值的Spark程序,4个工作线程
./run-example org.apache.spark.examples.SparkPi local[4]




1.2 Web UI
在Log里,可以看到 ui.SparkUI: Started Spark Web UI at http://brian-i3.local:4040
在浏览器地址栏输入http://brian-i3.local:4040,回车,可以看到作业执行情况。


1.3 SparkPi.scal的源代码分析


1.3.1 代码在examples/src/main/scala/org/apache/spark/examples目录下


1.3.2 代码内容如下:
package org.apache.spark.examples


import scala.math.random
import org.apache.spark._
import SparkContext._


/** Computes an approximation to pi */
object SparkPi {
  def main(args: Array[String]) {
    if (args.length == 0) {
      System.err.println("Usage: SparkPi <master> [<slices>]")
      System.exit(1)
    }
    val spark = new SparkContext(args(0), "SparkPi",
      System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR")))
    val slices = if (args.length > 1) args(1).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    System.exit(0)
  }
}


核心的语句是这条:
val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)


MapReduce过程一句话搞定,跟Hadoop比起来真是差别太大了,简单到令人泪下,如果用Hadoop的话,上百行代码肯定是有的。






2. LocalPi.scala
在本地计算Pi值,实际上这是一个Scala程序,跟Spark没什么关系。


3. BroadcastTest.scala
测试Broadcast,Broadcast是共享变量的广播变量,只读属性。


4. CassandraTest.scala
测试Cassandra数据库,它是Facebook开发然后开源的,类似google的BigTable。


5. ExceptionHandlingTest.scala
测试抛出异常功能。


6. GroupByTest.scala
测试,根据键值分组。


7. HBaseTest.scala
测试HBase,HBase是Hadoop的数据库,类似Google的BigTable。


8. HdfsTest.scala
测试Hdfs文件系统,Hdfs是Hadoop的文件系统,类似Google的GFS。


9. LocalALS.scala
ALS是交替最小二乘法,通常用于推荐系统的算法。


10. LocalFileLR.scala
逻辑回归算法。


11. LocalKMeans.scala
K-Means聚类算法。


12. LocalLR.scala
逻辑回归算法。


13. LogQuery.scala
以MapReduce的方式,处理Apache log。


14. MultiBroadcastTest.scala
测试多个Broadcast共享变量。


....


其他的代码,多是本地代码的并行版本。

© 著作权归作者所有

brian_2017
粉丝 3
博文 61
码字总数 145216
作品 0
私信 提问
我的第一本著作:Spark技术内幕上市!

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/anzhsoft2008/article/details/48594363 现在各大网站销售中! 京东:http://item.jd.com/11770787.html 当当...

anzhsoft
2015/09/20
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
423
2
Spark2.1.0之剖析spark-shell

通过在spark-shell中执行word count的过程,让读者了解到可以使用spark-shell提交Spark作业。现在读者应该很想知道spark-shell究竟做了什么呢? 脚本分析 在Spark安装目录的bin文件夹下可以找...

beliefer
2018/04/20
0
0
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

大数据之路
2014/09/08
5K
0
OSC 第 65 期高手问答 — Spark 企业级实战

OSCHINA 本期高手问答(3月23日-3月29日)我们请来了 @王家林 (王家林)为大家解答关于 Spark 开发方面的问题。 王 家林,Spark 亚太研究院院长和首席专家,当今云计算领域最火爆的技术Docke...

叶秀兰
2015/03/23
6.4K
22

没有更多内容

加载失败,请刷新页面

加载更多

计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
今天
5
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
今天
7
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
今天
6
0
【技术分享】TestFlight测试的流程文档

上架基本需求资料 1、苹果开发者账号(如还没账号先申请-苹果开发者账号申请教程) 2、开发好的APP 通过本篇教程,可以学习到ios证书申请和打包ipa上传到appstoreconnect.apple.com进行TestF...

qtb999
今天
10
0
再见 Spring Boot 1.X,Spring Boot 2.X 走向舞台中心

2019年8月6日,Spring 官方在其博客宣布,Spring Boot 1.x 停止维护,Spring Boot 1.x 生命周期正式结束。 其实早在2018年7月30号,Spring 官方就已经在博客进行过预告,Spring Boot 1.X 将维...

Java技术剑
今天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部