加载中
Spark上的深度学习流水线

Spark上的深度学习流水线 本文根据 https://github.com/databricks/spark-deep-learning 翻译。 本文地址 https://my.oschina.net/u/2306127/blog/1811876,By openthings,2018-05-18. 深度...

Spark运行环境的安装

Spark功能还是蛮强的,安装的东西可是不少,好在搞完一次就可以一直用(除非用不上)。这里介绍安装需要的软件和步骤。不同机器可能还有些设置不一样的,需要自己去摸索,毕竟这个是开源软件...

2015/06/25 13:47
953
关于Spark的基本概念和特性简介

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单介绍了...

Image Data Support in Apache Spark

Image Data Support in Apache Spark March 5, 2018 by ML Blog Team This post is co-authored by the Microsoft Azure Machine Learning team, in collaboration with Databricks Machine ...

2018/04/27 14:49
148
Spark 3.0 内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内...

Spark 3.0 on Kubernetes 的模式与最新发展

Spark 3.0发布后,对Kubernetes的原生支持得到大幅增强,从而方便了Spark在云原生环境中的快速部署和运行实例的管理。这里探讨Spark on Kubernetes 生态的现状与挑战。 参考: Spark 3.01 o...

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等...

Spark 3.0 on Kubernetes 部署与使用指南

Spark 可以运行在 Kubernetes 管理的集群之上,该特性可以使用添加到Spark的原生的Kubernetes scheduler。该调度器目前还是体验状态,将来可能会发生变化,使用时需要注意。 相关参考: Spar...

Spark机器学习工具链-MLflow简介

Spark机器学习工具链-MLflow简介 本文翻译自 https://github.com/openthings/mlflow 本文地址 https://my.oschina.net/u/2306127/blog/1825638, by openthings, 2018.06.07. 参考: mlflow...

2018/06/07 07:40
3.7K
Spark 1.2 发布,开源集群计算系统

Spark 1.2 发布,此版本包括 172 位贡献者和超过 1000 个 commits。 此版本包括 Spark 核心操作和性能改进; 添加新的网络传输子系统,进行了较大的改进; Spark SQL 引入了一个外部数据源的...

2015/01/20 20:43
46
Spark机器学习工具链-MLflow使用教程

Spark机器学习工具链-MLflow使用教程 本文翻译自 https://www.mlflow.org/docs/latest/concepts.html 本文地址 https://my.oschina.net/u/2306127/blog/1825690,by openthings, 2018.06.07...

2018/06/07 09:42
8.1K
Introducing Deep Learning Pipelines for Apache Spark

Introducing Deep Learning Pipelines for Apache Spark Deep Learning Pipelines is a new library published by Databricks to provide high-level APIs for scalable deep learning model...

2018/05/17 23:01
304
Apache Spark 3.0 正式发布,重大功能概览

Apache Spark 3.0 增加了很多令人兴奋的新特性,包括动态分区修剪(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Schedul...

Spark的GPU支持方法研究

本文持续更新中,转载请注明来源:https://my.oschina.net/u/2306127/blog/1602291 为了使用Spark进行机器学习,支持GPU是必须的,上层再运行神经网络引擎。目前AWS\GCP和Databricks的云都已...

Spark 3.0-pandas支持及其与DataFrame相互转换

pandas是python用户广泛使用的数据分析库,Spark 3.0已经能较好滴支持pandas接口,从而弥补pandas不能跨机进行大数据处理的不足。pandas还能够与Spark原来的DataFrame相互转换,方便Spark和P...

Spark编程指南《Spark 官方文档》

Spark编程指南《Spark 官方文档》,中文翻译,后面包含一些深度使用的方法。

Spark的配置参数

Spark启动时的配置参数可以通过环境变量、命令行参数和SparkConf编程在启动时配置。这里介绍其配置方法和参数(有点多,慢慢看)。

2016/03/17 17:09
3K
Spark快速入门

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm...

2016/03/12 10:17
230
Spark的源码编译

Spark是一个快速发展的用于大量数据处理的分布式系统,这里介绍其源码编译方法。英文好的直接看Spark的版本下载和源码编译方法的官方地址:http://spark.apache.org/downloads.html,最新的信...

2015/12/17 10:08
434
Top Spark Ecosystem Projects(英)

Apache Spark has developed a rich ecosystem, including both official and third party tools. We have a look at 5 third party projects which complement Spark in 5 different ways. ...

2016/03/10 10:39
174

没有更多内容

加载失败,请刷新页面

返回顶部
顶部