文档章节

Spark入门指南 - 1.2 spark 安装

jlcao
 jlcao
发布于 2017/03/19 22:30
字数 528
阅读 24
收藏 1

如何安装spark?

    spark比Hadoop良心,既提供了Windows的运行方式,又提供了Linux的运行方式,不过推荐在Linux环境下使用。

    spark依赖 Java运行环境(最低1.7版本),请自行搭建。需要使用Linux环境的同学,自行准备Linux环境。笔者使用的是Linux 环境。可以是虚拟机,也可以是真实的环境

虚拟机Linux 安装 http://jingyan.baidu.com/article/a948d651484fba0a2dcd2e15.html

Linux Jdk安装 http://www.cnblogs.com/shihaiming/p/5809553.html

正式步骤

    首先需要下载spark。在官网可以下载,下载地址:

    http://spark.apache.org/downloads.html

    注意选择自己需要的版本,这儿我们使用目前最新的,下载的时候可以选择一个比较快的镜像。

Linux 命令环境也可以用 wget 命令下载。

笔者下载的是这个版本 spark-2.1.0-bin-hadoop2.7.tgz

1. 下载完成后移动到 /usr/local/spark 目录里面。

mv spark-2.1.0-bin-hadoop2.7.tgz /usr/local/spark  如果没有这个目录,你可能需要先新建这个目录。

2. 解压文件

tar -zxvf /usr/local/spark/spark-2.1.0-bin-hadoop2.7.tgz

解压完成后有如下目录

一看这些目录,还是比较熟悉的,和Hadoop的目录有些类似

不过唯一不同的是 spark有1个bin目录 和一个 sbin目录,其中bin目录放置着 和任务运行相关的一些执行脚本。 sbin目录放置的才是和集群启动和关闭的执行脚本。

着两个目录都需要有运行的权限 为了避免麻烦 给个775的权限

chmod -R 775 bin/

chmod -R 775 sbin/

然后在spark主目录执行一下

./bin/spark-shell   启动spark的shell测试界面

当出现以下界面时代表安装成功

spark-shell 将会在下一章介绍。

 

© 著作权归作者所有

jlcao
粉丝 2
博文 6
码字总数 4620
作品 0
南岸
程序员
私信 提问
加载中

评论(1)

d
deeper
博主,你好,自己也试过实现http代理服务器,但是在支持https协议时候,各种尝试都失败了!看到博主写的http代理服务器方面的文章,感觉很赞,但请问如何支持https,这方面真心请教,看过其他语言类似的实现,但还是失败告终.....
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

大数据之路
2014/09/08
5K
0
【Spark】Spark Quick Start(快速入门翻译)

本文主要是翻译Spark官网Quick Start。只能保证大概意思,尽量保证细节。英文水平有限,如果有错误的地方请指正,轻喷 目录导航在右上角,感谢两个大佬(孤傲苍狼 JavaScript自动生成博文目录...

跑呀跑
2018/09/16
0
0
微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

4 月 24 日,在 Spark+AI 峰会 上,我们很高兴地宣布推出 .NET for Apache Spark。Spark 是一种流行的开源分布式处理引擎,用于分析大型数据集。Spark 可用于处理批量数据、实时流、机器学习...

开源大数据EMR
05/22
0
0
新手入门:Spark 部署实战入门

Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整...

景龙Edward
2016/07/05
16.1K
5
18小时内掌握Spark,全面提升Spark技能!

伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。   Spark是基于内存,是云计算领域的继...

Spark亚太研究院
2014/06/12
77
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
681
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
39
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
25
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
72
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
71
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部