加载中
Apache Spark 2.3 原生支持 Kubernetes

Apache Spark 2.3 原生支持 Kubernetes This is a community blog from Anirudh Ramanathan and Palak Bhatia, software engineer and product manager respectively at Google, working in...

2018/03/08 23:02
498
Running Spark on Kubernetes

Running Spark on Kubernetes 注意,Spark 2.3已经正式发布,原生支持Kubernetes,这里的Spark 2.2已经过时。 参考 https://my.oschina.net/u/2306127/blog/1631978 Support for running on...

2018/03/08 21:57
409
在Kubernetes中运行Spark集群

在Kubernetes中运行Spark集群 注意,Spark 2.3已经正式发布,原生支持Kubernetes,这里的内容已经过时。 参考 https://my.oschina.net/u/2306127/blog/1631978 概述 Spark是新一代分布式内存...

Spark+Docker的集群模式

Spark支持local、Standalone和Cluster三种并行运行模式【参考:Spark的三种运行模式快速入门】。 local,单机运行模式。 Standalone,Spark自己构建的独立集群。 Cluster,运行在Mesos/YARN/...

Spark机器学习库(MLlib)指南

spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚...

Notebook Workflows: The Easiest Way to Implement Apache Spark Pipelines

Notebook Workflows: The Easiest Way to Implement Apache Spark Pipelines by Dave Wang, Eric Liang and Maddie Schults Posted in Company Blog August 30, 2016 原文地址: https://da...

Spark GraphX 编程指南

GraphX编程指南 (根据原文编辑:http://udn.yyuap.com/doc/spark-programming-guide-zh-cn/graphx-programming-guide/index.html) GraphX是一个新的(alpha)Spark API,它用于图和并行图(gr...

2016/08/29 15:31
333
Spark Streaming 编程指南[中]

Spark Streaming是一个分布式架构的流式数据处理框架。得益于庞大的Hadoop/Spark生态体系,利用RDD的内存迭代计算引入Streaming处理能力,是Spark的一个重要的模块。本Spark Streaming 编程指...

Spark SQL和DataFrame指南[中]

SparkSQL和DataFrame是Spark的高阶统一编程接口,在Spark2.0中进一步得到了增强。本文是关于Spark SQL和DataFrame的使用指南[中文翻译],包含使用概念、方法、接口、示例等内容。...

快速开始使用Spark和Alluxio

Spark在大数据处理领域正获得快速增长,其核心的RDD极大地提升了处理性能并且支持迭代运算。目前Spark DataFrame和Spark SQL更加成熟,而作为普通文件存储方案的Tachyon升级成为Alluxio,在成...

Jupyter Notebook Python, Scala, R, Spark, Mesos

在Docker中运行Jupyter/Spark/Mesos服务,支持Jupyter Notebook Python, Scala, R, Spark, Mesos Stack。

没有更多内容

加载失败,请刷新页面

返回顶部
顶部