加载中
spark伪分布式安装与测试

1、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html 2、安装和配置scala: 第一步:上传scala安装包 并解压 第二步 配置SCALA_HOME环境变量到bash_profil...

2015/07/08 20:59
3.8K
Spark二次排序

Java版本 package com.dt.java.spark; import akka.util.HashCode; import scala.math.Ordered; import java.io.Serializable; //实现Ordered接口(scala的) public class SecondarySort...

2016/09/21 16:24
93
spark wordcount—IDEA

1.首先在IDEA中,确认是否存在scala编译工具没有的话去官网下载http://www.scala-lang.org/,下面我们来用scala来写一个wordcount demo 在IDEA建立HelloWord项目,项目为scala项目,然后在建立...

2016/09/21 16:24
40
Spark分组TOPN排序

/** * Created by zhangshuai on 2016/9/22. */ // 输入文件 // Spark 100 // Hadoop 65 // Spark 99 // Hadoop 61 // Spark 195 // H...

2016/09/22 17:48
1.7K
Apache Spark 的设计与实现(Broadcast功能)

Broadcast 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这...

2016/09/21 16:22
108
Apache Spark 的设计与实现(shuffle过程)

Shuffle 过程 上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计...

2016/09/21 16:24
129
Apache Spark 的设计与实现(总体介绍)

概览 拿到系统后,部署系统是第一件事,那么系统部署成功以后, 各个节点都启动了哪些服务? 部署图 从部署图中可以看到 整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master...

2016/09/21 16:25
184
Apache Spark 的设计与实现(cache和checkpoint功能)

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spar...

2016/09/21 16:24
219
Apache Spark 的设计与实现(job逻辑执行图)

Job 逻辑执行图 General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最...

2016/09/21 16:27
361
Apache Spark 的设计与实现(job物理执行图)

Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行图,如何生成物理执行图(也就是 stages 和 ta...

2016/09/21 16:24
154
Apache Spark 的设计与实现(模块协调完成整个job)

架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在...

2016/09/21 16:24
92

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部