文档章节

Hadoop简介(1)

肖鋭
 肖鋭
发布于 2014/02/21 22:29
字数 355
阅读 95
收藏 1

Hadoop:

                适合大数据的分布式存储和计算平台.Hadoop中的核心就是HDFS(Hadoop Distributed File System)hadoop分布式文件系统,还有一个就是MapReduce并行计算框架.

Hadoop分布式文件系统:

                当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区(Partition),并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称为分布式文件系统(Distributed File System)。

                Hadoop有一个称为HDFS的分布式文件系统,全程Hadoop Distributed File System。在非正式文档或旧文档以及配置文件中,有时也简称为DFS

Hadoop中的MapReduce计算框架:

                在Hadoop中,其实处理数据都是由MapReduce来进行处理,首先由Map过滤数据或其他操作,在Map的输出时Reduce端的输入,Reduce端拿到Map端的输出后,分别对数据进行分区,排序,分组,聚合等操作,最后Reduce端把处理后的数据输出到HDFS中进行存储,再后可以把处理的数据提取并做其他相应需求操作。


                                                                                                                                     Name:Xr

                                                                                                                                     Date:2014-2-21 晚:22:28                                                                                              


© 著作权归作者所有

肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
加载中

评论(1)

肖鋭
肖鋭 博主
自己顶一个~79
好程序员大数据教程分享之Hadoop优缺点

好程序员大数据教程分享之Hadoop优缺点,大数据成为时代主流,开启时代的大门,全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更...

好程序员IT
2019/06/11
15
0
6月9日上海 华东运维技术大会:演讲主题、演讲嘉宾等信息

会议名称:华东运维技术大会 参会形式:免费报名制(注释:须事先报名,场地有限) 会议定位:企业运维技术的最佳实践 会议主题:运维自动化、Web服务器的优化与架构、云计算、虚拟化技术 会...

金官丁
2012/05/19
2.6K
11
hadoop的简介与伪分布的搭建

一:大数据hadoop简介 二:hadoop的伪分布安装 三:运行wordcount测试 四:hadoop 常用端口号 五:hadoop的四大模块包含 六:启动脚本: 一: 大数据hadoop简介 二:hadoop的伪分布安装 2.1 ...

flyfish225
2018/04/10
0
0
centos单机部署hadoop伪集群

目录 1 简介 2 版本 3 创建hadoop用户 4 设置SSH无密码登陆localhost 5 下载hadoop 6 设置环境变量 7 配置hadoop 8 测试hadoop 9 一些注意 简介 Hadoop能在单台机器上以伪分布式模式运行,即...

lwaif
2015/06/24
224
0
windows 环境下Eclipse开发MapReduce环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i5......

加油_张
2013/11/30
13.7K
0

没有更多内容

加载失败,请刷新页面

加载更多

2020,向死而生

或许2020年注定是非常艰难的一年,毕竟两个轮回前之的1900年,清廷过得也很艰难,义和团在北方闹得轰轰烈烈,紫禁城也被八国联军占领。次年(1901年)即签订了后世所谓的丧权辱国的辛丑条约,...

嘉树
34分钟前
7
0
git 常用配置

git config --global core.compression 0 git config --global http.lowSpeedLimit 0 git config --global http.lowSpeedTime 999999 git config --global http.postBuffer 524288000......

老码农008
34分钟前
6
0
Protel99SE WIN10系统下无法添加封装库的解决方法

Protel99SE WIN10系统下无法添加封装库的解决方法 Protel99SE这款PCB设计软件实在太古老了,导致与微软的最新操作系统有些功能不能兼容,比如WIN10系统下无法添加封装库;但是由于Protel99S...

demyar
36分钟前
3
0
大数据风控系统概述

为什么要做风控系统 不做的话,会有以下风险: 各种小号、垃圾账号泛滥 撞库攻击、盗号、毁号、拖库等 拉新 10w 留存率不到 5% 百万营销费用,却增加不了用户粘性 投票票数差距非常悬殊 各种...

大数据技术进阶
36分钟前
5
0
串口调试助手,VB6.0开发

1、为什么要自己开发一个串口调试助手 通常我们都是:在网上直接下载一个串口助手,可执行文件,直接使用,并无法得到其源码,在此我们提供了一个VB6.0开发的串口助手: (1)让你极速掌握串...

superman150
39分钟前
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部