文档章节

RedHat6.5安装Spark单机

四叶草666
 四叶草666
发布于 2017/07/19 09:38
字数 1100
阅读 14
收藏 0
点赞 0
评论 0

版本号:

RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5)

JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808

Hadoop2.7.3    RedHat6.5上安装Hadoop单机

scala-2.11.8  

spark-2.1.1-bin-hadoop2.7

1 安装Spark依赖的Scala

          Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。

1.1  下载和解压缩Scala

 

官网下载地址:https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 

百度云盘下载地址:链接:http://pan.baidu.com/s/1eSiVjO2 密码:y8b1 

linux在服务器的/usr/local目录下新建一个名为scala的文件夹,并将下载的压缩包上载上去

如图: 

执行命令,进入到该目录:

cd    /usr/local/scala

执行命令进行解压缩:

tar   -xvf   scala-2.11.8.tgz

1.2  配置环境变量

sudo gedit /et/profile

编辑/etc/profile这个文件,在文件中增加一行配置:

 
  1. #set Scala environment
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export PATH=$SCALA_HOME/bin:$PATH

  添加完成后,我的/etc/profile的配置如下:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH

环境变量配置完成后,执行下面的命令: 

source   /etc/profile  

1.3 验证Scala

    执行命令: scala     -version  

   如图:    

2 下载和解压缩Spark      

2.1 下载Spark压缩包

官网下载地址:http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz  

百度云盘下载地址:链接:http://pan.baidu.com/s/1cGTtgU 密码:hciq      

2.2  解压缩Spark

       下载完成后,在Linux服务器的/usr/local目录下新建一个名为spark的文件夹,把刚才下载的压缩包,上传上去。

如图:

进入到该目录内,也就是执行下面的命令:

cd    /usr/local/spark

执行解压缩命令:

tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

3  Spark相关的配置

3.1  配置环境变量

sudo gedit /etc/profile

编辑/etc/profile文件,增加

 
  1. #set Spark environment
  2. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  3. export PATH=$SPARK_HOME/bin:$PATH

      注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

修改完成后,/etc/profile文件内容是:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH
  16.  
  17. #set Spark environment
  18. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  19. export PATH=$SPARK_HOME/bin:$PATH

编辑完成后,执行命令:

source   /etc/profile

3.2 配置conf目录下的文件

         对/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1  新建spark-env.h文件

        执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd    /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

       以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

cp    spark-env.sh.template   spark-env.sh   

编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):

 
  1. export JAVA_HOME=/usr/local/java/jdk1.8
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  4. export HADOOP_DIR=$HADOOP_HOME/etc/hadoop
  5. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  6. export SPARK_MASTER_IP=master
  7. export SPARK_EXECUTOR_MEMORY=1g

 

4 启动和测试Spark

4.1 启动Spark

       因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行

        在hadoop正常运行的情况下,在master(也就是hadoop的namenode,spark的marster节点)上执行命令:

 cd  /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin

 执行启动脚本:

  ./start-all.sh 

  完整控制台输出内容是:

 
  1. [root@master sbin]#   ./start-all.sh 
  2. starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
  3. localhost: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  4. [root@master sbin]# jps
  5. 5872 Jps
  6. 4849 SecondaryNameNode
  7. 5714 Master
  8. 5810 Worker
  9. 4676 DataNode
  10. 5126 NodeManager
  11. 5015 ResourceManager
  12. 4542 NameNode

5714 Master
5810 Worker

有这两个就是spark已经启动成功!!!

注意:上面的命令中有./这个不能少,./的意思是执行当前目录下的start-all.sh脚本。

4.2  测试和使用Spark集群

4.2.1  访问Spark集群提供的URL

在浏览器里访问Mster机器,我的Spark集群里Master机器是master,IP地址是192.168.168.200,访问8080端口,URL是:

http://192.168.168.200:8080       

如图: 

参考资料:http://blog.csdn.net/pucao_cug/article/details/72353701

© 著作权归作者所有

共有 人打赏支持
四叶草666
粉丝 0
博文 51
码字总数 50778
作品 0
深圳
程序员
Apache Spark源码分析-- Job的提交与运行

本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。 实验环境搭建 在进行后续操作前,确保下列条件已满足。 1. 下载spark binary 0.9.1 2. 安装scala 3. ...

超人学院
2015/05/28
0
0
Spark 伪分布式 & 全分布式 安装指南

0、前言 3月31日是 Spark 五周年纪念日,从第一个公开发布的版本开始,Spark走过了不平凡的5年:从刚开始的默默无闻,到13年的鹊起,14年的大爆发。Spark核心之上有分布式的机器学习,SQL,s...

大数据之路
2015/04/02
0
5
Spark笔记整理(一):spark单机安装部署、分布式集群与HA安装部署+spark源码编译

[TOC] spark单机安装部署 完全分布式安装 Spark源码编译 编译成功后输出如下: 然后就可以在下面的目录中看到编译成功的文件: 在已经安装的spark的lib目录下也可以看到该文件:...

xpleaf
04/24
0
0
利用Knime建立Spark Machine learning 模型 1:开发环境搭建

1、Knime Analytics 安装 从官方网站下载合适的版本 https://www.knime.com/downloads 将下载的安装包在安装路径解压 https://www.knime.com/installation-0 下图是knime启动后的欢迎页面...

forestwater
05/09
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(2)

安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。 首先在Master上安装Spark,具体步骤如下: 第一步:把Master上的Spark解压: 我们直接解压到当前目录下: 此时,我们创建S...

Spark亚太研究院
2014/09/09
0
0
windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
0
0
大疆又发“黑科技”,可以手势操控的“晓” Spark 掌上无人机

写完这篇稿子,镁客君要去剁手了。 北京时间昨晚11点30分,大疆创新在美国纽约召开了新品发布会,正式推出第一款迷你型掌上无人机“晓”Spark无人机。这一支持手势操作的新款无人机,单机售价...

行者武松
03/14
0
0
Hadoop CDH5 Spark部署

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark ...

China_OS
2014/05/30
0
0
在Windows上build Spark

在本机(Windows 8)上安装spark玩一玩,Spark的Quick Start上没有指明具体步骤,自己Build好了之后把步骤记录一下。 首先,到Spark的官网上下载Spark的压缩包,然后解压缩到本地文件夹。我下...

wangyugod
2014/11/13
0
0
Spark安装启动 and 在程序中调用spark服务

1.软件准备 我的系统环境为ubuntu 13.10 1.scala-2.9.3.tgz http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 由于spark是依赖scala2.9.3开发的,所以只能安装2.9.3,我试的时候一开...

zachary124
2014/01/25
0
9

没有更多内容

加载失败,请刷新页面

加载更多

下一页

机器学习管理平台 MLFlow

最近工作很忙,博客一直都没有更新。抽时间给大家介绍一下Databrick开源的机器学习管理平台-MLFlow。 谈起Databrick,相信即使是不熟悉机器学习和大数据的工程湿们也都有所了解,它由Spark的...

naughty
今天
0
0
idea tomcat 远程调试

tomcat 配置 编辑文件${tomcat_home}/bin/catalina.sh,在文件开头添加如下代码。    CATALINA_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=7829" Idea端配......

qwfys
今天
1
0
遍历目录下的文件每250M打包一个文件

#!/usr/bin/env python # -*- utf-8 -*- # @Time : 2018/7/20 0020 下午 10:16 # @Author : 陈元 # @Email : abcmeabc@163.com # @file : tarFile.py import os import tarfile import thr......

寻爱的小草
今天
1
0
expect同步文件&expect指定host和要同步的文件&构建文件分发系统&批量远程执行命令

20.31 expect脚本同步文件 expect通过与rsync结合,可以在一台机器上把文件自动同步到多台机器上 编写脚本 [root@linux-5 ~]# cd /usr/local/sbin[root@linux-5 sbin]# vim 4.expect#!/...

影夜Linux
今天
1
0
SpringBoot | 第九章:Mybatis-plus的集成和使用

前言 本章节开始介绍数据访问方面的相关知识点。对于后端开发者而言,和数据库打交道是每天都在进行的,所以一个好用的ORM框架是很有必要的。目前,绝大部分公司都选择MyBatis框架作为底层数...

oKong
今天
13
0
win10 上安装解压版mysql

1.效果 2. 下载MySQL 压缩版 下载地址: https://downloads.mysql.com/archives/community/ 3. 配置 3.1 将下载的文件解压到合适的位置 我最终将myql文件 放在:D:\develop\mysql 最终放的位...

Lucky_Me
今天
2
0
linux服务器修改mtu值优化cpu

一、jumbo frames 相关 1、什么是jumbo frames Jumbo frames 是指比标准Ethernet Frames长的frame,即比1518/1522 bit大的frames,Jumbo frame的大小是每个设备厂商规定的,不属于IEEE标准;...

问题终结者
今天
2
0
expect脚本同步文件expect脚本指定host和要同步的文件 构建文件分发系统批量远程执行命令

expect脚本同步文件 在一台机器上把文件同步到多台机器上 自动同步文件 vim 4.expect [root@yong-01 sbin]# vim 4.expect#!/usr/bin/expectset passwd "20655739"spawn rsync -av ro...

lyy549745
今天
1
0
36.rsync下 日志 screen

10.32/10.33 rsync通过服务同步 10.34 linux系统日志 10.35 screen工具 10.32/10.33 rsync通过服务同步: rsync还可以通过服务的方式同步。那需要开启一个服务,他的架构是cs架构,客户端服务...

王鑫linux
今天
1
0
matplotlib 保存图片时的参数

简单绘图 import matplotlib.pyplot as pltplt.plot(range(10)) 保存为csv格式,放大后依然很清晰 plt.savefig('t1.svg') 普通保存放大后会有点模糊文件大小20多k plt.savefig('t5.p...

阿豪boy
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部