文档章节

Spark学习笔记-windows环境搭建

Endless2010
 Endless2010
发布于 2017/07/16 22:58
字数 161
阅读 4
收藏 0

下载解压

下载地址:http://spark.apache.org/downloads.html

输入图片说明

环境配置

先装好java, scala, HDFS

输入图片说明

配置SPARK_HOME,Path

输入图片说明

启动Spark-shell

启动时出错: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are:-------

输入图片说明

解决方案:D:\hadoop-2.7.3\bin\winutils.exe chmod 777 D:\tmp\hive 输入图片说明   winutils可以到这里下载:https://github.com/steveloughran/winutils

启动成功可以看到:

输入图片说明

编写单词计数程序

var file=sc.textFile("file:///D:/spark-2.2.0-bin-hadoop2.7/README.md")
var wordCount= file.flatMap(line=>line.split (" ")). map(word=>(word,1)).
 reduceByKey((a,b) =>a+b). collect()

输入图片说明

读取HDFS文件

var file=sc.textFile("hdfs://127.0.0.1:9000/files/README.txt")
var wordCount= file.flatMap(line=>line.split (" ")). map(word=>(word,1)). 
reduceByKey((a,b) =>a+b). collect()

输入图片说明

输入图片说明

界面查看任务

http://127.0.0.1:4040/jobs/

输入图片说明

© 著作权归作者所有

Endless2010
粉丝 1
博文 36
码字总数 23027
作品 0
南京
程序员
私信 提问
windows 安装 spark 及 PyCharm IDEA 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
700
0
本地windows跑Scala程序调用Spark

应用场景 spark是用scala写的一种极其强悍的计算工具,spark内存计算,提供了图计算,流式计算,机器学习,即时查询等十分方便的工具,所以利用scala来进行spark编程是十分必要的,下面简单书...

wsc449
2017/11/21
0
0
地铁译:Spark for python developers --- 搭建Spark虚拟环境 4

Spark 同时可以建立在虚拟化的基础上,例如Vagrant 和Docker, 这样的虚拟化环境很容易部署到各种云服务上,例如AWS。 Vagrant的虚拟化环境 为了创建Python和Spark 环境,便于分享和复制, 整...

abel_cao
01/17
0
0
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解

前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决...

虚无境
2018/08/23
0
0
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapRe...

虚无境
2018/08/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
昨天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
昨天
28
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
昨天
65
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
昨天
58
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
昨天
60
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部