文档章节

小白学习大数据之路——在docker集群上搭建spark集群

阿亮学长123
 阿亮学长123
发布于 2017/01/01 17:24
字数 1205
阅读 754
收藏 38

  前前后后用了好久才将系统搭建过程完成,当中遇到不少问题,郁闷了好长时间,感谢大黄同学的帮助,下次他发博客打赏喽。

  我将以借鉴的博客的博文顺序补充细节,告诉作为新手的我们可能会遇到的问题。linux的基本操作指令一定要熟悉,比如文件解压命令(tar -zxvf jdk-8u77-linux-x64.tar.gz到当前文件夹下),文件的移动(mv),还有基本的vim命令。

这个链接就是借鉴的博客地址:http://www.cnblogs.com/jasonfreak/p/5391190.html

这是大黄同学总结的linux指令,很实用:https://my.oschina.net/htzy/blog/792495

这个里面有vim的指令脑图,做的相当好偶(被强迫推荐,手动捂脸)

  •  Docker安装及配置 
  1. 使用tag命令来为一个镜像打标签:docker tag <mirror id> <tag>

       这个语句缺少一个部分,需要给你的镜像添加镜像的来源repository,例如ubuntu:spark。

这里的spark是tag.还有这里有一个技术路线图,是整个操作的示意图,十分清晰明了,一定要看懂后在动手。

  • ssh安装及配置
  1. 我的前一篇博文清楚的介绍了什么是ssh所以本处就不解释了。添加几个命令的注释:
docker --name cloud1 -h cloud1 --add-host cloud1:172.17.0.2 --add-host cloud2:172.17.0.3 --add-host cloud3:172.17.0.4 -it ubuntu

这个命令严格来说应该在docker 后面加run命令参数。

apt-get install ssh

使用apt工具包下载前最好用:apt-get update更新一下,以免造成下载失败。我配置时有错误提示说配置的目录未找到,可能是版本不同里面的文件有变化,当出现找不到文件,可以自己用shell命令新建需要的文件即可。

  • 基础环境安装
  1. 包括后面一堆需要的软件下载都不是apt-get工具可以搞定的。需要用wget.

       wget是linux最常用的下载命令, 一般的使用方法是: wget + 空格 + 要下载文件的url路径

    例如:wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz

      简单说一下-c参数, 这个也非常常见, 可以断点续传, 如果不小心终止了, 可以继续使用命令接着下载

    例如: # wget -c http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz

    下面详细阐述wget的用法:

      wget是一个从网络上自动下载文件的自由工具。它支持HTTP,HTTPS和FTP协议,可以使用HTTP代理.

      所谓的自动下载是指,wget可以在用户退出系统的之后在后台执行。这意味这你可以登录系统,启动一个wget下载任务,然后退出系统,wget将在后台执行直到任务完成,相对于其它大部分浏览器在下载大量数据时需要用户一直的参与,这省去了极大的麻烦。

      wget可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。在递归下载的时候,wget遵循Robot Exclusion标准(/robots.txt). wget可以在下载的同时,将链接转换成指向本地文件,以方便离线浏览。

      wget非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性.如果是由于网络的原因下载失败,wget会不断的尝试,直到整个文件下载完毕。如果是服务器打断下载过程,它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。

  2. 我们搭建环境需要下载:

    需要下载软件列表
    软件名称 版本
    java 1.8.0_77
    scala 2.10.6
    Zookeeper 3.4.8
    hadoop 2.6.4
    spark 1.6.1

    在linux中的压缩包大多以tar.gz或tgz两种。具体的下载地址去该软件的下载官网,然后挑选合适版本的下载文字,右键选择下载地址即可得到地址,使用wget命令下载。具体如下:

先打开java下载官方主页:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

然后我们可以选择合适版本并获取地址:

http://download.oracle.com/otn-pub/java/jdk/8u111-b14/jdk-8u111-linux-x64.tar.gz

  • 集群部署
  1. 到这一步基本整个过程快要结束,
    zkServer.sh start

在所有节点启动zkserver后,在所有节点查看Zkserver运行状态,

Zkserver.sh status

效果如下图:

重点是:显示连接不到Zkserver的错误,如果等待10分钟还不行,重启虚拟机也可以一试。

© 著作权归作者所有

阿亮学长123
粉丝 12
博文 31
码字总数 14762
作品 0
南京
程序员
私信 提问
工作日志——基于k8s搭建spark集群

使用k8s搭建spark集群 这几天尝试在k8s中搭建spark集群,踩了一些坑,跟大家分享一下。 Spark的组件介绍可参考官方文档 大数据生态圈简介可参考这篇文章 基于k8s官方示例 具体参考github k8...

店家小二
2018/12/16
0
0
超人学院大数据高薪就业班第七期精彩课程抢先看

超人学院大数据高薪就业班第七期火爆招生中,新的一期,内容部不断增加,还有更多优惠呦,精彩内容抢先看: 1、Linux课程:如果你没有使用过Linux,别担心,本内容让你轻松入门,讲解Linux基...

超人学院
2015/04/30
143
0
Kubernetes助力Spark大数据分析

Kubernetes 作为一个广受欢迎的开源容器协调系统,是Google于2014年酝酿的项目。从Google趋势上看到,Kubernetes自2014年以来热度一路飙升,短短几年时间就已超越了大数据分析领域的长老Had...

店家小二
2018/12/17
0
0
IBM 开源主要关注 Spark,Docker,Node 和 Go

近期 IBM 推出开源项目门户,计划开源 50个项目。在 IBM 开源门户 DeveloperWorks中有大量的开源项目都是为了提升 Spark 性能来优化 Docker 的网络管理。 IBM 当前推出的 DeveloperWorks 开源...

oschina
2015/08/06
4.8K
7
docker下,极速搭建spark集群(含hdfs集群)

版权声明:欢迎转载,请注明出处,谢谢。 https://blog.csdn.net/boling_cavalry/article/details/86851069 搭建spark和hdfs的集群环境会消耗一些时间和精力,处于学习和开发阶段的同学关注的...

博陵精骑
02/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周二乱弹 —— 开发语言和语言开发的能一样么

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @花间小酌:#今日歌曲推荐# 分享The Score的单曲《Revolution》 《Revolution》- The Score 手机党少年们想听歌,请使劲儿戳(这里) @批判派...

小小编辑
今天
537
8
oracle ORA-39700: database must be opened with UPGRADE option

ORA-01092: ORACLE instance terminated. Disconnection forced ORA-00704: bootstrap process failure ORA-39700: database must be opened with UPGRADE option 进程 ID: 3650 会话 ID: 29......

Tank_shu
今天
3
0
分布式协调服务zookeeper

ps.本文为《从Paxos到Zookeeper 分布式一致性原理与实践》笔记之一 ZooKeeper ZooKeeper曾是Apache Hadoop的一个子项目,是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它...

ls_cherish
今天
4
0
聊聊DubboDefaultPropertiesEnvironmentPostProcessor

序 本文主要研究一下DubboDefaultPropertiesEnvironmentPostProcessor DubboDefaultPropertiesEnvironmentPostProcessor dubbo-spring-boot-project-2.7.3/dubbo-spring-boot-compatible/au......

go4it
昨天
2
0
redis 学习2

网站 启动 服务端 启动redis 服务端 在redis 安装目录下 src 里面 ./redis-server & 可以指定 配置文件或者端口 客户端 在 redis 的安装目录里面的 src 里面 ./redis-cli 可以指定 指定 连接...

之渊
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部