加载中
Hadoop(十六)——hadoop之MapReduce理论篇(七)——MapReduce数据压缩

一、 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。...

2019/07/05 22:46
966
Hadoop(十五)——hadoop之MapReduce理论篇(六)—— ReduceTask工作机制

一、设置ReduceTask reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置: //默认值是1,手动设置为...

2019/07/04 23:06
943
Hadoop(十四)——hadoop之MapReduce理论篇(五)——MapReduce详细工作流程

一、Shuffle机制 Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。 二、MapReduce工作流程 1.图示流程 2.流程详解 上面的...

2019/07/04 23:05
3.6K
Hadoop(十三)——hadoop之MapReduce理论篇(四)—— MapTask工作机制

一、问题引出 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢? 二、MapTask并行度决定机制 一个job的map阶段MapTask并行...

2019/07/04 23:05
899
Hadoop(十一)——hadoop之MapReduce理论篇(二)—— job的提交流程源码分析

一、job提交过程源码分析 1. 调用job.waitForCompletion(true)源码查看 /** * 1. @Param verbose:true表示将运行进度等信息及时输出给用户,false的话只是等待作业结束 * 2. public static...

2019/07/03 00:48
1K
Hadoop(十)——hadoop之MapReduce理论篇(一)—— Writable序列化

一、序列化的概念 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化...

2019/07/01 22:35
994
Hadoop(九)——hadoop之MapReduce概述

一、MapReduce概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个...

2019/06/27 21:15
1.2K
Hadoop(八)——hadoop之DataNode工作机制

一、DataNode工作机制 (1)一个数据块在datanode上以文件形式存储在磁盘上,这个数据块包括两个文件,其中一个是数据本身,另外一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 ...

2019/06/26 20:25
873
Hadoop(七)——hadoop之NameNode工作机制

一、NameNode&Secondary NameNode工作机制 NameNode工作机制分为二个阶段 第一个阶段:NameNode的启动 (1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接...

2019/06/25 01:19
874
Hadoop(六)——hadoop的拓展之机架感知

一、网络拓扑概念 在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距...

2019/06/24 01:00
1K
Hadoop(五)——hadoop之HDFS工作流程

一、HDFS写数据流程 客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 namenode返回是否可以上传 客户端请求第一个 block上传到哪几个datanode服务器上 na...

2019/06/24 01:00
996
Hadoop(三)——hadoop完全分布式搭建(CentOS7.x_64+jdk8_64+hadoop2.4.0_64)

一、准备需要三台linux服务器 ip ---------->hostname 192.168.0.101 hadoop-ip-101 192.168.0.102 hadoop-ip-102 192.168.0.103 hadoop-ip-103 安装一台型新的linu虚拟机(centos7) 1)创建...

2019/06/23 18:37
1.4K
Hadoop(一)——hadoop框架简介

摘要(参考资料来源网络) hadoop的网络上有很多相关的资料,这里简单介绍一下 一、什么是hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构 主要解决,海量数据的__存储__和海量...

2019/06/23 14:49
1.1K

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部