文档章节

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

阿里云云栖社区
 阿里云云栖社区
发布于 2018/04/17 15:04
字数 594
阅读 98
收藏 4

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

(二):Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

  1. 你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

15228374600296

  1. 给你的应用一个名字, e.g. spark-oss-online2
  2. (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker:
 # set OSS access keyID and secret
  oss_access_key_id: <Your sub-account>
  oss_access_key_secret: <your key_secret of sub-account>
  
  1. (可选)修改工作节点数目 Worker.Replicas: 3


15228349034649

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例


15228367511796

6 点击 服务, 查看外部端点, 点击URL访问Spark集群


15228382498256


15228383577200

7 测试Spark集群

  1. 打开一个spark-shell
kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077
  1. 粘贴下列代码,使用Spark测试OSS的读写性
// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")

// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>

helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

© 著作权归作者所有

阿里云云栖社区
粉丝 454
博文 1558
码字总数 3823668
作品 0
朝阳
私信 提问
容器开启数据服务之旅系列(三):Kubernetes QoS助力在线运用与大数据离线运用的混部

容器开启数据服务之旅系列(三) (三):Kubernetes QoS助力在线运用与大数据离线运用的混部 概述 本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器服务Kuber...

cu.eric.lee
2018/05/23
0
0
Kubernetes助力Spark大数据分析

Kubernetes 作为一个广受欢迎的开源容器协调系统,是Google于2014年酝酿的项目。从Google趋势上看到,Kubernetes自2014年以来热度一路飙升,短短几年时间就已超越了大数据分析领域的长老Had...

店家小二
2018/12/17
0
0
TalkingData的Spark On Kubernetes实践

众所周知,Spark是一个快速、通用的大规模数据处理平台,和Hadoop的MapReduce计算框架类似。但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式...

Docker
2018/05/14
0
0
Spark in action on Kubernetes - Playground搭建与架构浅析

前言 Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是...

莫源
01/22
0
0
重磅!Google宣布为Spark推出Kubernetes Operator

“Spark Operator”测试版允许在Kubernetes集群上执行原生Spark应用程序,不需要Hadoop或Mesos。 Apache Spark是一个非常流行的执行框架,通常用在数据工程和机器学习领域。支撑Databricks ...

OpenShift开源社区
02/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

字节序转换详解

在跨平台和网络编程中我们经常会提到网络字节序和主机字节序,如果没有正确对两者进行转换,从而导致两方产生了不同的解释,就会出现意想不到的bug。 目录 0x01 概念 0x02 分类 0x03 两种字节...

无心的梦呓
16分钟前
3
0
干货 | AI人脸识别之人脸搜索

本文档将利用京东云AI SDK来实践人脸识别中的人脸搜索功能,主要涉及到分组创建/删除、分组列表获取、人脸创建/删除、人脸搜索,本次实操的最终效果是:创建一个人脸库,拿一张图片在人脸库中...

京东云技术新知
21分钟前
4
0
【swiper】 滑块组件说明

本文转载于:专业的前端网站➣【swiper】 滑块组件说明 swiper 滑块视图容器,其原型如下: 1 <swiper 2 indicator-dots="[Boolean]" 3 indicator-color="[Color]" 4 indicator-act......

前端老手
31分钟前
4
0
堆排序算法

《Java算法总纲目录》 1、定义 由下图(网上找的),堆排序类似这种,把最大的数字放到最下面的最右面位置,然后把第二大的数字放到最下层的最右面倒数第二个位置,依此类推,如下: 2、代码...

木九天
34分钟前
5
0
框架和库的区别

框架和库的区别 框架:是一套完整的解决方案;对项目的侵入性较大,项目如果需要更换框架,则需要重新架构整个项目。 node 中的 express; 库(插件):提供某一个小功能,对项目的侵入性较小...

庭前云落
38分钟前
5
1

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部