加载中
Spark with Python学习资源

使用Python运行于Spark上,可以快速获得分布式的处理能力,而且可以将大量的资源通过Python粘接起来,从而在分布式环境下发挥巨大的作用。这里介绍如何做的一些资源。

Spark编程指南《Spark 官方文档》

Spark编程指南《Spark 官方文档》,中文翻译,后面包含一些深度使用的方法。

Spark的python编程-初步理解

spark应用程序结构 Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序。 A:driver部分 driver部分主要是对SparkContext进行配置、初始化以及关闭。初始化Spa...

2016/03/03 09:09
1K
关于Spark的基本概念和特性简介

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单介绍了...

Spark编程指南—Python版

使用Python在Spark上进行数据分析的教程,翻译自Spark(spark.apache.org)的官方文档。

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等...

GraphX Programming Guide

GraphX Overview GraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a new Graph abstractio...

2016/08/29 15:14
23
Spark的Python编程-初步入门

Spark提供了Python脚本编程接口,这里简单介绍其使用。

2016/03/02 07:53
510
Spark Streaming 编程指南[中]

Spark Streaming是一个分布式架构的流式数据处理框架。得益于庞大的Hadoop/Spark生态体系,利用RDD的内存迭代计算引入Streaming处理能力,是Spark的一个重要的模块。本Spark Streaming 编程指...

Spark GraphX 快速入门

Spark GraphX 快速入门 (基于原文:http://blog.csdn.net/mach_learn/article/details/46501351 编辑) 概述 GraphX是Spark的一个新组件用于图和并行图计算。 GraphX通过引进一个新的图抽象...

2016/08/29 15:20
245
Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简...

2016/03/11 16:00
512
Spark Streaming 编程指南[中英对照]

Spark Streaming是一个分布式架构的流式数据处理框架。得益于庞大的Hadoop/Spark生态体系,利用RDD的内存迭代计算引入Streaming处理能力,是Spark的一个重要的模块。本Spark Streaming 编程指...

Spark快速入门

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm...

2016/03/12 10:17
209
Spark 学习资源收集

关于Spark的安装、部署、使用的教程、经验和书籍等等的学习资源集合,来自于http://my.oschina.net/leejun2005/blog/311486

2016/05/29 19:05
201
Spark SQL和DataFrame指南[中]

SparkSQL和DataFrame是Spark的高阶统一编程接口,在Spark2.0中进一步得到了增强。本文是关于Spark SQL和DataFrame的使用指南[中文翻译],包含使用概念、方法、接口、示例等内容。...

Spark SQL和DataFrame指南[中英对照]

关于Spark SQL和DataFrame的使用指南[中英对照]。

2016/05/29 19:02
201
基于Python的分布式计算平台-DPark

DPark是一个基于Mesos的集群计算框架(cluster computing framework),是Spark的Python实现版本,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的...

分布式机器学习框架-百度的PADDLE(计划开源)

PADDLE是百度开发的一个分布式的机器学习框架,是基于Spark的。

Spark的GPU支持方法研究

本文持续更新中,转载请注明来源:https://my.oschina.net/u/2306127/blog/1602291 为了使用Spark进行机器学习,支持GPU是必须的,上层再运行神经网络引擎。目前AWS\GCP和Databricks的云都已...

Spark GraphX 编程指南

GraphX编程指南 (根据原文编辑:http://udn.yyuap.com/doc/spark-programming-guide-zh-cn/graphx-programming-guide/index.html) GraphX是一个新的(alpha)Spark API,它用于图和并行图(gr...

2016/08/29 15:31
69

没有更多内容

加载失败,请刷新页面

返回顶部
顶部