文档章节

Spark书籍连载-Spark高手之路:构建Spark集群1章1步

Spark亚太研究院
 Spark亚太研究院
发布于 2014/07/27 11:16
字数 886
阅读 1.5K
收藏 7

伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。《云计算分布式大数据Spark实战高手之路》是Spark亚太研究院推出的系列书籍。网络发布版为图文并茂方式,边学习,边演练,不需要任何前置知识,从零开始,循序渐进。我们将通过博客进行书籍内容的连载。

 

云计算分布式大数据Spark实战高手之路---从零开始》:

不需要任何基础,带领您无痛入门Spark并能够轻松处理Spark工程师的日常编程工作,内容包括Spark集群的构建、Spark架构设计、RDDShark/SparkSQL、机器学习、图计算、实时流处理、Spark on YarnJobServerSpark测试、Spark优化等。

 

 

《第一章:构建Spark集群》

对于90%以上想学习Spark的人而言,如何构建Spark集群是其最大的难点之一,为了解决大家构建Spark集群的一切困难,家林把Spark集群的构建分为了四个步骤,从零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的Spark集群。

 

从零起步,构建Spark集群经典四部曲:

  •  第一步:搭建Hadoop单机和伪分布式环境;

  •  第二步:构造分布式Hadoop集群;

  • 第三步:构造分布式的Spark集群;

  • 第四步:测试Spark集群;

 

本文内容为构建Spark集群经典四部曲的第一步,从零起步构建Hadoop单机版本和伪分布式的开发环境,涉及:

  • 开发Hadoop需要的基本软件;

  •  安装每个软件;

  • 配置Hadoop单机模式并运行Wordcount示例;

  • 配置Hadoop伪分布式模式并运行Wordcount示例;

     

     

    第一步:开发Hadoop需要的基本软件

  • 我们的开发环境是在Windows 7上面构建Hadoop,此时需要Vmware虚拟机、UbuntuISO镜像文件,Java  SDK的支持、Eclipse IDE平台、Hadoop安装包等;

    1、Vmware虚拟机,这里使用的是VMware Workstation 9.0.2 for Windows 具体的下载地址是https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 如下图所示:

 

下载后在本地的保存如下图所示:

 

可以看出里面多了一个keys.txt文件,这个是安装Vwware时需要的序列码,读者需要从网络上下载;

2、UbuntuISO镜像文件,家林这里使用的ubuntu-12.10-desktop-i386,具体下载地址为:http://www.ubuntu.org.cn/download/desktop/alternative-downloads 如下图所示:

 

下载后,在本地电脑的保存为:

 

3、Java  SDK的支持,使用的是最新的“jdk-7u60-linux-i586.tar.gz”,具体的下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 如下图所示:

 

点击下载,保存在了Ubuntu系统如下图所示:

 

4、下载最新稳定版本的Hadoop,下载的是“hadoop-1.1.2-bin.tar.gz ”,具体官方下载地址为http://mirrors.cnnic.cn/apache/hadoop/common/stable/ 下载后在本地的保存为:

 

 

 

© 著作权归作者所有

Spark亚太研究院
粉丝 76
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(9)

第二步:构造分布式的Spark1.0.2集群 1,下载Scala 2.10.4,具体下载地址: http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行...

Spark亚太研究院
2014/11/17
255
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
449
2
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(13)

从控制台可以看到我们的程序成功在集群上运行: Detail for stage 1: Detail for Stage 0: 查看一下Executors的信息: 上述信息表明程序成功在Spark集群上运行。 第四步:基于IDEA构建Spark...

Spark亚太研究院
2014/11/20
289
0
如何成为云计算大数据Spark高手

Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位; 要想...

Spark亚太研究院
2014/06/13
2.1K
3
Spark成为大数据高手进阶步骤

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapRedu...

MoksMo
2015/11/05
2.2K
1

没有更多内容

加载失败,请刷新页面

加载更多

MBTI助你成功,让你更了解你自己

MBTI助你成功,让你更了解你自己 生活总是一个七日接着又一个七日,相信看过第七日的小伙伴,很熟悉这段开场白,人生是一个测试接着又一个测试,上学的时候测试,是为了证明你的智力,可谓从...

蛤蟆丸子
41分钟前
49
0
Android实现App版本自动更新

现在很多的App中都会有一个检查版本的功能。例如斗鱼TV App的设置界面下: 当我们点击检查更新的时候,就会向服务器发起版本检测的请求。一般的处理方式是:服务器返回的App版本与当前手机安...

shzwork
昨天
63
0
npm 发布webpack插件 webpack-html-cdn-plugin

初始化一个项目 npm init 切换到npm源 淘宝 npm config set registry https://registry.npm.taobao.org npm npm config set registry http://registry.npmjs.org 登录 npm login 登录状态......

阿豪boy
昨天
87
0
java基础(16)递归

一.说明 递归:方法内调用自己 public static void run1(){ //递归 run1(); } 二.入门: 三.执行流程: 四.无限循环:经常用 无限递归不要轻易使用,无限递归的终点是:栈内存溢出错误 五.递...

煌sir
昨天
63
0
REST接口设计规范总结

URI格式规范 URI中尽量使用连字符”-“代替下划线”_”的使用 URI中统一使用小写字母 URI中不要包含文件(脚本)的扩展名 URI命名规范 文档(Document)类型的资源用名词(短语)单数命名 集合(Co...

Treize
昨天
69
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部