加载中
Hive使用update&delete操作

1.修改配置(hive-site.xml)也可以直接加入hive开头给予变量 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.partition.mode = nonstrict hive.txn.mana...

2016/08/17 10:39
60
hadoop面试题20道

  1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。   1.创建hadoop用户.   2.setup修改IP.   3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量...

2016/03/02 11:27
177
mapreduce文件读取与清洗

package com.demo.admin; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration;...

2015/12/24 18:27
132
Spark分组TOPN排序

/** * Created by zhangshuai on 2016/9/22. */ // 输入文件 // Spark 100 // Hadoop 65 // Spark 99 // Hadoop 61 // Spark 195 // H...

2016/09/22 17:48
64
Apache Spark 的设计与实现(job逻辑执行图)

Job 逻辑执行图 General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最...

2016/09/21 16:27
115
Apache Spark 的设计与实现(总体介绍)

概览 拿到系统后,部署系统是第一件事,那么系统部署成功以后, 各个节点都启动了哪些服务? 部署图 从部署图中可以看到 整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master...

2016/09/21 16:25
33
Apache Spark 的设计与实现(job物理执行图)

Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行图,如何生成物理执行图(也就是 stages 和 ta...

2016/09/21 16:24
38
spark wordcount—IDEA

1.首先在IDEA中,确认是否存在scala编译工具没有的话去官网下载http://www.scala-lang.org/,下面我们来用scala来写一个wordcount demo 在IDEA建立HelloWord项目,项目为scala项目,然后在建立...

2016/09/21 16:24
12
Spark二次排序

Java版本 package com.dt.java.spark; import akka.util.HashCode; import scala.math.Ordered; import java.io.Serializable; //实现Ordered接口(scala的) public class SecondarySort...

2016/09/21 16:24
18
Apache Spark 的设计与实现(模块协调完成整个job)

架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在...

2016/09/21 16:24
32
Apache Spark 的设计与实现(cache和checkpoint功能)

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spar...

2016/09/21 16:24
39
Apache Spark 的设计与实现(shuffle过程)

Shuffle 过程 上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计...

2016/09/21 16:24
43
spark伪分布式安装与测试

1、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html 2、安装和配置scala: 第一步:上传scala安装包 并解压 第二步 配置SCALA_HOME环境变量到bash_profil...

2016/09/21 16:22
19
Apache Spark 的设计与实现(Broadcast功能)

Broadcast 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这...

2016/09/21 16:22
26
mapreduce文件匹配相同数据多文件输出

package mapper; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import ...

2016/01/02 17:45
165
MapReduce V1:Job提交流程之JobClient端分析

我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。 MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理...

2015/10/09 10:51
500
Hadoop2.2.0-HA高可用集群环境搭建

Hadoop2.2.0-HA高可用集群环境搭建 集群主机信息 主机名称 主机ip 配置 主要功能 master1 硬盘300G,内存32G,CPU8核 管理主节点 master2 硬盘300G,内存32G,CPU8核 管理备份节点 slave1 硬盘...

2015/09/15 11:07
485
SQOOP导入mysql数据库乱码

一、mysql中的编码 mysql> show variables like 'collation_%'; +----------------------+-------------------+ | Variable_name | Value | +----------------------+-------------...

2015/08/29 16:36
1K
Hive技术文档

Hive是什么? Hive是蜂房的意思,为什么hadoop上的这层数据仓库叫Hive? 因为生物学上蜂房是一个结构相当精良的建筑,取名Hive足见则个数据仓库在数据存储上也是堪称精良的。Hive是Facebook开...

2015/08/06 19:37
161
Hive操作语句的使用

#创建表人信息表 person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED AS TEXTFILE; OK ...

2015/08/06 19:05
59

没有更多内容

加载失败,请刷新页面

返回顶部
顶部