文档章节

9.Spark之集群搭建4

鞋底留个洞
 鞋底留个洞
发布于 2016/01/27 17:44
字数 552
阅读 20
收藏 0
点赞 1
评论 0

6.运行Spark

6.1使用spark-submit

    spark-submit命令位于${SPARK_HOME}/bin目录下,用于提交spark程序。

    

    我们参照spark官网上的说明运行计算圆周率的程序,使用一下spark-sunbmit。

 执行命令:./spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 10

 我们截取了命令执行过程中的一部分关键日志信息如下图,其中说明了10个线程运行结束和最后得到的圆周率值:

 

 我们再次通过浏览器查看spark集群环境和运行的日志:

 

 

6.2使用spark-shell

 spark-shell命令位于${SPARK_HOME}/bin目录下,用于提供交互式的命令行终端。

 ${SPARK_HOME}/bin目录下执行命令:./spark-shell --master spark://master:7077

 

 在spark-shell终端中使用exit命令来退出终端。

 为了在该交互式命令行终端下测试一下,我们通过运行hadoop中常用的wordcount为例来说明。

 命令:echo "Hello Spark, Hello World" >> wordcount.txt,创建一个测试文本文件;

 命令:hdfs dfs -mkdir /input,在hdfs上创一个input目录;

 命令:hdfs dfs -put ./wordcount.txt /input,将测试文本文件上传到hdfs的input目录下;

 命令:hdfs dfs -ls /input,查看文本文件是否上传成功;

 命令:hdfs dfs -cat /input/wordcount.txt,查看文本文件内容;

 命令:hdfs dfs -mkdir /output,在hdfs上创一个output目录;

 在spark-shell命令行终端执行命令:sc.textFile("/input/wordcount.txt").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).map(pair => (pair._2, pair._1)).sortByKey(false).map(pair => (pair._2, pair._1)).saveAsTextFile("/output/r1"),运行由scala语言编写的wordcount示例程序;

 

 输入exit退出spark-shell命令行终端,执行命令:hdfs dfs -ls /output/r1

 

 命令:hdfs dfs -cat /output/r1/part-00000、hdfs dfs -cat /output/r1/part-00001,查看运行后的结果

 

 两个文件合并后的结果符合我们的文本文件内容。至此,我们了解了spark-shell的使用。

© 著作权归作者所有

共有 人打赏支持
鞋底留个洞
粉丝 2
博文 28
码字总数 28568
作品 0
朝阳
高级程序员
服务器(4)--搭建Solr集群+搭建Zookeeper集群(上篇)

背景:上一篇文章重点介绍了一下单机版的Solr搭建过程以及中文分析器的配置,这篇文章则重点介绍一下Solr集群的搭建步骤,以及Zookeeper集群的搭建步骤。由于搭建过程比较繁琐,所以分为两篇...

u013043341 ⋅ 2017/05/31 ⋅ 0

(14)Spark 2.0.0 集群部署

1.引言 在前面的博客中介绍了Spark的伪分布安装,在本篇博客中将介绍一下Spark的集群部署,在本博客中Spark的调度采用Hadoop的Yarn平台,因此在安装Spark之前,需要先部署的集群,因为我在安...

LoveCarpenter ⋅ 2017/12/15 ⋅ 0

Hive从入门到实战视频教程【40讲全】

1、Hive是什么,Hive的体系结构,Hive和Hadoop的关系 2、Hive的元数据存储、Hive的数据存储、Hive和RDBMS的区别 3、JDK安装 4、Hadoop集群搭建-1 5、Hadoop集群搭建-2 6、Hadoop集群搭建-3 ...

tom先生 ⋅ 2014/11/26 ⋅ 0

基于CentOS的Hadoop和Spark分布式集群搭建过程

1. 软件版本,IP地址,修改主机名和hosts文件 (1)软件版本:CentOS 7.0;JDK 8u141;Hadoop 2.7.3;Scala 2.11.8;Spark 2.2.0。 (2)IP地址:192.168.106.128(主节点);192.168.106.1...

shengshengwang ⋅ 2017/07/23 ⋅ 0

Memcached高可用方案收集(集群及分布式)

Memcached的集群方案有很多,不止magent一个,但是单靠集群软件去实现高可用感觉还是会缺少一步,最推荐的方案应该是软件加编码去实现高可用,至少能保证站点的99.5%的可运行行,以下是集群的...

easonjim ⋅ 2017/09/23 ⋅ 0

Spark2.0.0集群部署教程

1.引言 在前面的博客中介绍了Spark的伪分布安装,在本篇博客中将介绍一下Spark的集群部署,在本博客中Spark的调度采用Hadoop的Yarn平台,因此在安装Spark之前,需要先部署Hadoop的集群,因为...

Liri ⋅ 2017/12/16 ⋅ 0

大数据之hadoop,国内首部:Zookeeper从入门到精通课程分享

对这个课程感兴趣的朋友可以加我QQ2059055336和我联系。 ZooKeeper是Hadoop的开源子项目(Google Chubby的开源实现),它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护...

八千里路 ⋅ 2014/05/08 ⋅ 0

大数据Hadoop需要了解哪些内容?

一、Hadoop环境搭建 1. Hadoop生态环境介绍 2. Hadoop云计算中的位置和关系 3. 国内外Hadoop应用案例介绍 4. Hadoop概念、版本、历史 5. Hadoop核心组成介绍及hdfs、mapreduce体系结构 6. H...

mo默瑶 ⋅ 05/05 ⋅ 0

mongodb集群搭建步骤

搭建mongodb集群很多次,每次都会或多、或少出现一些见鬼的问题,写这边博客供以后参考。 本次是基于mongodb3.0进行集群的搭建;搭建步骤如下: 1、设置操作系统的环境 echo "never">"/sys/k...

990653058 ⋅ 2015/04/10 ⋅ 0

docker swarm集群搭建及使用Portainer、shipyard

一、规划 1、swarm01作为manager节点,swarm02和swarm03作为worker节点。 # cat /etc/hosts127.0.0.1 localhost192.168.139.175 swarm01 192.168.139.176 swarm02 192.168.139.177 swarm03 2......

yzy121403725 ⋅ 01/12 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

个人博客的运营模式能否学习TMALL天猫质量为上?

心情随笔|个人博客的运营模式能否学习TMALL天猫质量为上? 中国的互联网已经发展了很多年了,记得在十年前,个人博客十分流行,大量的人都在写博客,而且质量还不错,很多高质量的文章都是在...

原创小博客 ⋅ 今天 ⋅ 0

JavaScript零基础入门——(十一)JavaScript的DOM操作

JavaScript零基础入门——(十一)JavaScript的DOM操作 大家好,欢迎回到我们的JavaScript零基础入门。最近有些同学问我说,我讲的的比书上的精简不少。其实呢,我主要讲的是我在开发中经常会...

JandenMa ⋅ 今天 ⋅ 0

volatile和synchronized的区别

volatile和synchronized的区别 在讲这个之前需要先了解下JMM(Java memory Model :java内存模型):并发过程中如何处理可见性、原子性、有序性的问题--建立JMM模型 详情请看:https://baike.b...

MarinJ_Shao ⋅ 今天 ⋅ 0

深入分析Kubernetes Critical Pod(一)

Author: xidianwangtao@gmail.com 摘要:大家在部署Kubernetes集群AddOn组件的时候,经常会看到Annotation scheduler.alpha.kubernetes.io/critical-pod"="",以表示这是一个关键服务,那你知...

WaltonWang ⋅ 今天 ⋅ 0

原子性 - synchronized关键词

原子性概念 原子性提供了程序的互斥操作,同一时刻只能有一个线程能对某块代码进行操作。 原子性的实现方式 在jdk中,原子性的实现方式主要分为: synchronized:关键词,它依赖于JVM,保证了同...

dotleo ⋅ 今天 ⋅ 0

【2018.06.22学习笔记】【linux高级知识 14.4-15.3】

14.4 exportfs命令 14.5 NFS客户端问题 15.1 FTP介绍 15.2/15.3 使用vsftpd搭建ftp

lgsxp ⋅ 今天 ⋅ 0

JeeSite 4.0 功能权限管理基础(Shiro)

Shiro是Apache的一个开源框架,是一个权限管理的框架,实现用户认证、用户授权等。 只要有用户参与一般都要有权限管理,权限管理实现对用户访问系统的控制,按照安全规则或者安全策略控制用户...

ThinkGem ⋅ 昨天 ⋅ 0

python f-string 字符串格式化

主要内容 从Python 3.6开始,f-string是格式化字符串的一种很好的新方法。与其他格式化方式相比,它们不仅更易读,更简洁,不易出错,而且速度更快! 在本文的最后,您将了解如何以及为什么今...

阿豪boy ⋅ 昨天 ⋅ 0

Python实现自动登录站点

如果我们想要实现自动登录,那么我们就需要能够驱动浏览器(比如谷歌浏览器)来实现操作,ChromeDriver 刚好能够帮助我们这一点(非谷歌浏览器的驱动有所不同)。 一、确认软件版本 首先我们...

blackfoxya ⋅ 昨天 ⋅ 0

线性回归原理和实现基本认识

一:介绍 定义:线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。为了了解这个定义,我们先举个简单的例子;我们假设一个线性方程 Y=2x+1, x变量为商...

wangxuwei ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部