文档章节

Spark-2.1.1概述

K_Zhiqiang
 K_Zhiqiang
发布于 2017/05/01 19:28
字数 871
阅读 41
收藏 0

Spark 概述

    Apache Spark是一个快速的、通用的集群计算系统。它提供了基于Java、Scala、Python和R语言的高级API,和一个支持通常的任务执行图的最佳化引擎。它也提供了一个丰富的较高层次的工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLib,用于图处理的GraphX,和Spark Streaming

下载

    您可以从项目的官网的下载页获取Spark。这篇文档是针对Spark 2.1.0编写。Spark使用了用以支持HDFS和YARN的Hadoop的客户端库文件。下载页提供了一些的预包装的流行的Hadoop版本。用户也可以下载一个“Hadoop free”(即未预包装Hadoop库文件)的Spark二进制文件包,并通过配置Spark的classpath参数来运行Spark与任意版本的Hadoop。Scala和Java用户可以通过增加Spark的maven坐标在项目中使用Spark,将来Python用户也可以从PyPI安装Spark。

    如果您想要从源代码编译Spark,访问Building Spark

    Spark可以运行在Windows和类UNIX系统(例如:Linux、Mac OS)。在一台计算上本地化运行Spark是很容易的,仅仅需要在您的计算机上安装java,并且配置好系统变量PATH,或者指向java安装目录的环境变量JAVA_HOME。

    Spark运行在Java 7+,Python 2.6+/3.4+ 和 R3.1+。对于Scala API,Spark 2.1.0使用Scala 2.11,你需要使用一个兼容的Scala版本(2.11.x)。

    注意:从Spark 2.0.0开始,Spark对Java 7和Python 2.6的支持已被弃用,从Spark 2.1.0开始,Spark对Scala2.10和Hadoop2.6之前版本的支持已被弃用,并且可能在Spark 2.2.0版本中移除。

运行示例和Shell

    Spark提供了几个示例程序。Scala、Java、Python和R示例在examples/src/main目录。可以使用顶层的Spark目录中的bin/run-example <class> [params]来运行这些Java或Scala示例程序。(在后台,它会调用更常见的spark-submit脚本来启动应用)。例如,

./bin/run-example SparkPi 10

    您可以通过一个Scala shell的改进版本来交互式运行Spark,这是一个学习Spark框架的很好的方式。

./bin/spark-shell --master local[2]

    --master选项指定了一个分布式集群的Master节点的URL,或者local来使用1个线程本地模式运行,或者local[N]来使用N个线程本地模式运行。您可以使用local来启动以进行测试。您可以运行Spark shell使用--help选项来获取一个完整的选项列表。

    Spark也提供了Python API。可以使用bin/pyspark,在一个Python解释器中交互式运行Spark:

./bin/pyspark --master local[2]

    示例程序也以Python语言的形式给出。例如,

./bin/spark-submit examples/src/main/python/pi.py 10

    从1.4版本开始,Spark也提供了一个实验性的R API(只包含DataFrames APIs)。可以使用bin/sparkR,在一个R解释器中交互式运行Spark:

./bin/sparkR --master local[2]

    示例程序也以R语言的形式给出。例如,

./bin/spark-submit examples/src/main/r/dataframe.R

在集群上启动

    Spark集群模式概览解释了在集群上运行的重要概念。Spark可以通过自身运行,或者运行在几种存在的集群管理器上。目前提供了以下几个部署选项:

© 著作权归作者所有

K_Zhiqiang
粉丝 0
博文 24
码字总数 13488
作品 0
海淀
程序员
私信 提问
[Spark]Spark RDD 指南一 引入Spark

2.3.0版本:Spark2.3.0 引入Spark 1. Java版 Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.ap...

sjf0115
2017/06/08
0
0
pycharm pyspark 配置

1 、安装了pycharm,下载spark(官网下载,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解压缩后为文件夹spark-2.1.1-bin-hadoop2.7,我将文件放在了/Applications/spark/下,这个文件夹里面有p...

张欢19933
2018/05/09
254
0
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许...

阿里云云栖社区
2018/04/17
89
0
Scala笔记整理(九):Actor和AKKA

[TOC] 概述 Scala的Actor有点类似于Java中的多线程编程。但是不同的是,Scala的Actor提供的模型与多线程有所不同。Scala的Actor尽可能地避免锁和共享状态,从而避免多线程并发时出现资源争用...

xpleaf
2018/04/24
0
0
Hive on Spark 伪分布式环境搭建过程记录

进入hive cli是,会有如下提示: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) ......

PeakFang-BOK
2018/12/13
70
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
昨天
64
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
昨天
26
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
昨天
43
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
昨天
27
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
昨天
44
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部