文档章节

spark reduceByKey()和 reduceByKey(,para)的时间差

K
 Kadima
发布于 2015/12/23 00:40
字数 62
阅读 41
收藏 0


import time

t=[]


for i in range(1,10000000000):
    t.append((i,i))
tsc=sc.parallelize(t)
def fun1(d):
    t1=time.time()
    d.reduceByKey(lambda x,y:x*y)
    t2=time.time()
    return t2-t1
def fun2(d):
    t1=time.time()
    d.reduceByKey(lambda x,y:x*y,10)
    t2=time.time()
    return t2-t1


>>> fun1(tsc)
0.033590078353881836
>>> fun2(tsc)
0.03184199333190918

© 著作权归作者所有

共有 人打赏支持
上一篇: spark
K
粉丝 5
博文 20
码字总数 8451
作品 0
崇明
私信 提问
spark RDD,reduceByKey vs groupByKey

Spark 中有两个类似的api,分别是 reduceByKey 和 groupByKey 。这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下。 先看两者的调用顺序(都是...

终日而思一
2018/10/28
0
0
Spark学习记录(一)Spark 环境搭建以及worldCount示例

安装Spark ------------------- 首先,安装spark之前需要先安装scala,并且安装scala的版本一定要是将要安装的spark要求的版本。比如spark2.1.0 要求scala 2.11系列的版本,不能多也不能少 ...

我爱春天的毛毛雨
2018/11/14
0
0
Spark Streaming初试

Spark Streaming初试 yum install nc.x8664 ./bin/spark-shell --total-executor-cores 34 敲入下面程序: import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds......

月下独酌100
2015/09/01
0
0
打造基于hadoop的网站日志分析系统(5)之spark在日志分析系统里的简单应用

1.下载spark和运行 wget http://apache.fayea.com/apache-mirror/spark/spark-1.0.0/spark-1.0.0-bin-hadoop2.tgz 我这里下载的是1.0.0版,由于我们只是测试spark的用法所以不需要配置spark集...

豚鼠窝窝
2014/07/10
0
0
Spark初识入门core (一)

Spark初识入门core (一) 标签(空格分隔): Spark的部分 一:spark 简介 1.1 spark 的来源 Hive Storm Mahout Griph Spark Core Spark SQL Spark Streaming Spark ML Spark GraphX Spark......

flyfish225
2018/05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

网络编程

第14天 网络编程 今日内容介绍  网络通信协议  UDP通信  TCP通信 今日学习目标  能够辨别UDP和TCP协议特点  能够说出UDP协议下两个常用类名称  能够说出TCP协议下两个常用类名称...

stars永恒
34分钟前
0
0
二进制相关

二进制 众所周知计算机使用的是二进制,数字的二进制是如何表示的呢? 实际就是逢二进一。比如 2 用二进制就是 10。那么根据此可以推算出 5的二进制等于 10*10+1 即为 101。 在计算机中,负数以...

NotFound403
昨天
2
0
day22:

1、写一个getinterface.sh 脚本可以接受选项[i,I],完成下面任务: 1)使用格式:getinterface.sh [-i interface | -I ip] 2)当用户使用-i选项时,显示指定网卡的IP地址;当用户使用-I选项...

芬野de博客
昨天
2
0
Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现

自Spring Cloud Alibaba发布第一个Release以来,就备受国内开发者的高度关注。虽然Spring Cloud Alibaba还没能纳入Spring Cloud的主版本管理中,但是凭借阿里中间件团队的背景,还是得到不少...

程序猿DD
昨天
4
0
Java并发编程:深入剖析ThreadLocal

ThreadLocal 的理解 ThreadLocal,很多地方叫线程本地变量,或线程本地存储。ThreadLocal为变量在每个线程中都创建了一个副本,每个线程可以访问自己内部的副本变量。===》解决的问题是线程间...

细节探索者
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部