加载中
Hadoop系列之四:MapReduce进阶

1、mapper和reducer MapReduce对数据的处理分为两个阶段:map阶段和reduce阶段,这两个阶段分别由用户开发的map函数和reduce函数完成,在MapReduce运行环境中运行时,它们也分别被称为mappe...

Hadoop系列之五:MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构 前文已经描述,MapReduce是一个编程框架,它为程序员提供了一种快速开发海量数据处理程序的编程环境,并能够让基于这种机制开发出的处理程序以稳定、容错...

Hadoop系列之三:函数式编程语言和MapReduce

1、MapReduce和大数据问题 海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不...

Hadoop系列之二:大数据、大数据处理模型及MapReduce

1、大数据(big data) 什么是大数据?wikipedia上面给出了这样的定义: In information technology, big data is a collection of data sets so large and complex that it becomes difficul...

Hadoop系列之一:大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据(structured data)。一个设计良好的数据库在其schema中定义...

Hadoop系列之六:分布式文件系统HDFS

1、MapReduce与分布式文件系统 前面的讨论中,我们已经得知,Hadoop中实现的MapReduce是一个编程模型和运行框架,它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在...

Hadoop系列之八:Hadoop集群

1、合并MapReduce集群与HDFS集群 在调度运行一个作业时,将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上,可避免大量的数据传输,实现数据处理的本地性,进而大大提高整个过程的...

Hadoop系列之七:分布式文件系统HDFS(2)

1、访问HDFS文件系统 HDFS是工作于用户空间的文件系统,它的树状文件系统是独立的,不能像传统上工作于内核空间的文件系统一样挂载至当前操作系统的目录树上对HDFS进行访问,传统上实现文件或...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部