文档章节

Parallelized Collections

月下独酌100
 月下独酌100
发布于 2015/06/12 19:21
字数 212
阅读 11
收藏 0
点赞 0
评论 0

parallelize用来利用cpu并行的处理数据


Parallelized collections are created by calling SparkContext’s parallelize method on an existing collection in your driver program (a Scala Seq). The elements of the collection are copied to form a distributed dataset that can be operated on in parallel. For example, here is how to create a parallelized collection holding the numbers 1 to 5:

val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data)

Once created, the distributed dataset (distData) can be operated on in parallel. For example, we might call distData.reduce((a, b) => a + b)to add up the elements of the array. We describe operations on distributed datasets later on.

One important parameter for parallel collections is the number of partitions to cut the dataset into. Spark will run one task for each partition of the cluster. Typically you want 2-4 partitions for each CPU in your cluster. Normally, Spark tries to set the number of partitions automatically based on your cluster. However, you can also set it manually by passing it as a second parameter to parallelize (e.g. sc.parallelize(data, 10)). Note: some places in the code use the term slices (a synonym for partitions) to maintain backward compatibility.


本文转载自:https://spark.apache.org/docs/latest/programming-guide.html#parallelized-collections

共有 人打赏支持
月下独酌100
粉丝 25
博文 186
码字总数 56475
作品 0
浦东
高级程序员
Scala’s parallel collections

Scala 2.9 introduced parallel collections, which mirror most of the existing collections with a parallel version. Collections that have been parallelized this way have received ......

mj4738 ⋅ 2012/01/20 ⋅ 0

PostgreSQL 11 首个测试版发布:引入 JIT ,性能再提升

PostgreSQL 11 首个 Beta 测试版已发布,包含 PostgreSQL 11 最终版本中可用的所有特性的预览。当然,部分细节可能最终会有所变化。 PostgreSQL 11 的主要特性集中在性能、更大的数据集以及易...

王练 ⋅ 05/25 ⋅ 21

spark编程基础

RDD概念和构建 Spark 核心的概念是Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有2 种方式创建RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;...

JPblog ⋅ 2016/07/18 ⋅ 0

Spring Batch_Parallel Steps

Spring BatchParallel Steps使用并行的Step spring 官方文档:http://docs.spring.io/spring-batch/trunk/reference/html/scalability.html#scalabilityParallelSteps As long as the applic......

秋风醉了 ⋅ 2014/11/14 ⋅ 1

Guice 框架扩展--Governator

Governator 是一个用来增强 Google Guice 框架的库、扩展和工具集,提供:类路径扫描和自动绑定、生命周期管理、配置到字段的映射、字段验证和并行对象热身 (parallelized object warmup)。...

红薯 ⋅ 2012/11/13 ⋅ 0

分子结构图展示库--3Dmol.js

3Dmol.js 是一个面向对象的基于 WebGL 的 JavaScript 库,用于实现在浏览器展示分子结构图。 特性: support for pdb, sdf, mol2, xyz, and cube formats parallelized molecular surface c...

红薯 ⋅ 2015/04/13 ⋅ 0

FFTW++ 1.12 发布,快速傅立叶转换库

FFTW++ 1.12 发布,改进记录: A parallelized loop increment has been localized. The SINGLETHREAD preprocessor symbol has been renamed to FFTWPPSINGLE_THREAD. Examples and tests h......

oschina ⋅ 2012/10/01 ⋅ 0

009.Spark Programming Guide

参考地址:http://spark.apache.org/docs/latest/programming-guide.html Spark的学习注意2个点: Transformations 和Actions(编码学习一定要会用API) Overview Linking with Spark Initiali......

片刻 ⋅ 2016/04/21 ⋅ 0

Percona Server 5.1.57-12.8 稳定版

Percona Server 5.1.57-12.8 是目前 5.1 分支的最新稳定版,基于 MySQL 5.1.57. 修复了一些bug Fixed InnoDB I/O code so that the interrupted system calls are restarted if they are in......

红薯 ⋅ 2011/06/09 ⋅ 2

OpenFOAM 2.1.0 发布,面向对象的CFD类库

OpenFOAM是一个完全由C++编写的面向对象的CFD类库,采用类似于我们日常习惯的方法在软件中描述偏微分方程的有限体积离散化,支持多面体网格(比如CD-adapco公司推出的CCM+生成的多面体网格)...

红薯 ⋅ 2012/03/30 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

vbs 取文件大小 字节

dim namedim fs, s'name = Inputbox("姓名")'msgbox(name)set fs = wscript.createobject("scripting.filesystemobject") 'fs为FSO实例if (fs.folderexists("c:\temp"))......

vga ⋅ 8分钟前 ⋅ 0

高并发之Nginx的限流

首先Nginx的版本号有要求,最低为1.11.5 如果低于这个版本,在Nginx的配置中 upstream web_app { server 到达Ip1:端口 max_conns=10; server 到达Ip2:端口 max_conns=10; } server { listen ...

算法之名 ⋅ 今天 ⋅ 0

Spring | IOC AOP 注解 简单使用

写在前面的话 很久没更新笔记了,有人会抱怨:小冯啊,你是不是在偷懒啊,没有学习了。老哥,真的冤枉:我觉得我自己很菜,还在努力学习呢,正在学习Vue.js做管理系统呢。即便这样,我还是不...

Wenyi_Feng ⋅ 今天 ⋅ 0

博客迁移到 https://www.jianshu.com/u/aa501451a235

博客迁移到 https://www.jianshu.com/u/aa501451a235 本博客不再更新

为为02 ⋅ 今天 ⋅ 0

win10怎么彻底关闭自动更新

win10自带的更新每天都很多,每一次下载都要占用大量网络,而且安装要等得时间也蛮久的。 工具/原料 Win10 方法/步骤 单击左下角开始菜单点击设置图标进入设置界面 在设置窗口中输入“服务”...

阿K1225 ⋅ 今天 ⋅ 0

Elasticsearch 6.3.0 SQL功能使用案例分享

The best elasticsearch highlevel java rest api-----bboss Elasticsearch 6.3.0 官方新推出的SQL检索插件非常不错,本文一个实际案例来介绍其使用方法。 1.代码中的sql检索 @Testpu...

bboss ⋅ 今天 ⋅ 0

informix数据库在linux中的安装以及用java/c/c++访问

一、安装前准备 安装JDK(略) 到IBM官网上下载informix软件:iif.12.10.FC9DE.linux-x86_64.tar放在某个大家都可以访问的目录比如:/mypkg,并解压到该目录下。 我也放到了百度云和天翼云上...

wangxuwei ⋅ 今天 ⋅ 0

PHP语言系统ZBLOG或许无法重现月光博客的闪耀历史[图]

最近在写博客,希望通过自己努力打造一个优秀的教育类主题博客,名动江湖,但是问题来了,现在写博客还有前途吗?面对强大的自媒体站点围剿,还有信心和可能型吗? 至于程序部分,我选择了P...

原创小博客 ⋅ 今天 ⋅ 0

IntelliJ IDEA 2018.1新特性

工欲善其事必先利其器,如果有一款IDE可以让你更高效地专注于开发以及源码阅读,为什么不试一试? 本文转载自:netty技术内幕 3月27日,jetbrains正式发布期待已久的IntelliJ IDEA 2018.1,再...

Romane ⋅ 今天 ⋅ 0

浅谈设计模式之工厂模式

工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻...

佛系程序猿灬 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部