加载中
Hadoop实战读书笔记(9)

如何将一个反向引用索引的程序的Reducer输出的类型改为IntWritable public static class Reduce extends MapReduceBase implements Reducer<Text, Text, Text, IntWritable> { public void ...

2014/12/09 12:03
144
Hadoop实战读书笔记(8)

什么是开发数据集? 一个流行的开发策略是为生产环境中的大数据集建立一个较小的、抽样的数据子集,称为开发数据集。这个开发数据集可能只有几百兆字节。当你以单机或者伪分布式模式编写程序...

2014/12/08 21:01
524
Hadoop实战读书笔记(7)

输入数据概要 输入数据通常驻留在较大的文件中,通常几十或者数百GB,甚至更大。MapReduce处理的基本原则之一是将输入数据分割成块。这些块可以在多台计算机上并行处理,在Hadoop的术语中这些...

2014/12/08 17:54
188
Hadoop实战读书笔记(6)

putmerge程序的大体流程是? 1、根据用户定义的参数设置本地目录和HDFS的目录文件 2、提取本地输入目录中每个文件的信息 3、创建一个输出流写入到HDF文件 4、遍历本地目录中的每个文件,打开...

2014/12/08 15:03
211
Hadoop实战读书笔记(5)

HDFS文件操作 你可以把一个大数据集(100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节...

2014/12/08 11:28
214
Hadoop实战读书笔记(4)

安装Hadoop集群 1、需要专门制定一个服务器作为主节点。 2、这个节点会驻留NameNode和JobTracker的守护进程。 3、它也将作为一个基站,负责联络并激活所有从节点上的DataNode和TaskTracker守...

2014/12/05 20:50
41
Hadoop实战读书笔记(3)

"运行Hadoop"是什么意思? 这意味着在网络分布的不同服务器上运行一组守护进程(daemons)。这些守护进程有特殊的角色,一些仅存在于单个服务器上,一些则运行在多个服务器上。 这些角色都有谁...

2014/12/05 19:26
47
Hadoop实战读书笔记(2)

如果是MapReduce如何实现一个WordCount的? MapReduce程序执行分为两个主要阶段:为mapping和reducing,每个阶段均定义为一个数据处理函数,分别被称为mapper和reducer。 运行逻辑 在mapping...

2014/12/05 17:20
178
Hadoop实战读书笔记(1)

编写可扩展、分布式的数据密集型程序的基础知识 为什么数据量很大? 在当今社会,我们正在被数据包围,人们上传视频、用手机照相、发短信给朋友、更新Facebook、网上留言以及点击广告等,都产...

2014/12/05 15:34
307

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部