加载中
Spark Streaming 编程指南[中英对照]

Spark Streaming是一个分布式架构的流式数据处理框架。得益于庞大的Hadoop/Spark生态体系,利用RDD的内存迭代计算引入Streaming处理能力,是Spark的一个重要的模块。本Spark Streaming 编程指...

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简...

2016/03/11 16:00
512
Spark Streaming 编程指南[中]

Spark Streaming是一个分布式架构的流式数据处理框架。得益于庞大的Hadoop/Spark生态体系,利用RDD的内存迭代计算引入Streaming处理能力,是Spark的一个重要的模块。本Spark Streaming 编程指...

Spark 学习资源收集

关于Spark的安装、部署、使用的教程、经验和书籍等等的学习资源集合,来自于http://my.oschina.net/leejun2005/blog/311486

2016/05/29 19:05
201
scikit-feature: Open-Source Feature Selection Repo

scikit-feature is an open-source feature selection repository in python, with around 40 popular algorithms in feature selection research. It is developed by Data Mining and Mach...

2016/03/10 10:45
54
python中xml与json、dict、string的相互转换-xmltodict

在开发中经常遇到字符串、xml、json、dict对象的相互转换,这个工具和这里的方法全部都能够搞定。

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等...

A Vision for Making Deep Learning Simple

A Vision for Making Deep Learning Simple When MapReduce was introduced 15 years ago, it showed the world a glimpse into the future. For the first time, engineers at Silicon Vall...

2018/05/17 22:57
17
Spark的可视化作业管理

在过去,Spark UI一直是用户应用程序调试的帮手。而在最新版本的Spark 1.4中,我们很高兴地宣布,一个新的因素被注入到Spark UI——数据可视化。在此版本中,可视化带来的提升主要包括三个部...

Spark机器学习库(MLlib)指南

spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚...

Spark 1.2 发布,开源集群计算系统

Spark 1.2 发布,此版本包括 172 位贡献者和超过 1000 个 commits。 此版本包括 Spark 核心操作和性能改进; 添加新的网络传输子系统,进行了较大的改进; Spark SQL 引入了一个外部数据源的...

2015/01/20 20:43
42
Spark的配置参数

Spark启动时的配置参数可以通过环境变量、命令行参数和SparkConf编程在启动时配置。这里介绍其配置方法和参数(有点多,慢慢看)。

2016/03/17 17:09
835
Expander-基于Graph的机器学习软件

近来机器学习突飞猛进使计算机系统能够解决现实世界中的复杂问题。其中之一便是谷歌的大规模、基于图的机器学习平台。这一技术使用了半监督式学习方法,目前已经在谷歌大量的产品中得到应用,...

2016/10/08 14:35
103
Patroni: A Template for PostgreSQL HA with ZooKeeper, etcd or Consul

Patroni: A Template for PostgreSQL HA with ZooKeeper, etcd or Consul You can find a version of this documentation that is searchable and also easier to navigate at patroni.readt...

Spark快速入门

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm...

2016/03/12 10:17
209
分布式MySQL集群Vitess-简介

Vitess is a database solution for deploying, scaling and managing large clusters of MySQL instances. It’s architected to run as effectively in a public or private cloud archit...

Top Spark Ecosystem Projects(英)

Apache Spark has developed a rich ecosystem, including both official and third party tools. We have a look at 5 third party projects which complement Spark in 5 different ways. ...

2016/03/10 10:39
29
关于Spark的基本概念和特性简介

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单介绍了...

分布式机器学习框架-TensorFlow Serving(英)

TensorFlow是Google开源的基于神经网络的深度学习引擎,可以支持分布式运行。

hadoop2.7环境的编译安装

海外找回来的的资料,珍惜吧!BD TMD的搜不到,搜到的很多细节漏掉了,总是出错,而且版本很旧,都是1.X的。这里介绍的是目前最新的Hadoop版本2.7.1,但因为还在开发中,应该还不是很稳定,需...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部