加载中
Hive使用update&delete操作

1.修改配置(hive-site.xml)也可以直接加入hive开头给予变量 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.partition.mode = nonstrict hive.txn.mana...

2016/08/17 10:39
7.2K
Apache Spark 的设计与实现(job逻辑执行图)

Job 逻辑执行图 General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最...

2016/09/21 16:27
407
Apache Spark 的设计与实现(job物理执行图)

Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行图,如何生成物理执行图(也就是 stages 和 ta...

2016/09/21 16:24
172
Apache Spark 的设计与实现(模块协调完成整个job)

架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在...

2016/09/21 16:24
102
Spark二次排序

Java版本 package com.dt.java.spark; import akka.util.HashCode; import scala.math.Ordered; import java.io.Serializable; //实现Ordered接口(scala的) public class SecondarySort...

2016/09/21 16:24
124
Apache Spark 的设计与实现(cache和checkpoint功能)

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spar...

2016/09/21 16:24
265
Apache Spark 的设计与实现(shuffle过程)

Shuffle 过程 上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计...

2016/09/21 16:24
159
Apache Spark 的设计与实现(Broadcast功能)

Broadcast 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这...

2016/09/21 16:22
118
mapreduce文件匹配相同数据多文件输出

package mapper; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import ...

2016/01/02 17:45
314
MapReduce V1:Job提交流程之JobClient端分析

我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。 MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理...

2015/10/09 10:51
1.6K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部