文档章节

HDFS设计基础与目标

三平行者
 三平行者
发布于 2015/03/10 17:29
字数 548
阅读 47
收藏 0
点赞 0
评论 0

设计基础:

(1)由于硬件错误是常态。因此需要冗余。

(2)流式数据访问,即数据批量读取,而非随机读取。hadoop擅长做的是数据分析而不是事务处理。

(3)大规模数据集

(4)简单一致性模型。为了降低系统复杂度,对文件采取一次性写多次读的逻辑设计,即是文件一经写入,关闭后,就再也不能修改。

(5)程序采用“数据就近”原则分配节点执行。

 

体系结构:

hdfs采用主从结构,Namenode属于主端,Datanode属于从端。

Namenode:

    1) 管理文件系统的命名空间。

    2) 记录每个文件数据块在Datanode上的位置和副本信息。

    3) 协调客户端对文件的访问。

    4) 记录命名空间内的改动或者空间本身属性的改动。

    5) Namenode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射、文件属性等。

从社会学的角度看,Namenode是HDFS的管理者,发挥管理、协调、操控的作用。

 

 Datanode:

    1) 负责所在物理节点的存储管理。

    2) 一次写入,多次读取,不能修改。

    3) 文件由数据库组成,一般情况下,数据块的大小为64MB。

    4) 数据尽量散布到各个节点。

     从社会学的角度看,Datanode是HDFS的工作者,发挥着按照Namenode的命令干活,并且把干活的进展和问题反馈到Namenode的作用。

 

SecondaryNameNode:

    1) HA的一个解决方案。但不支持热备。配置即可。

    2) 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits.

    3) 默认在安装在NameNode节点上,但这样...不安全!

 

可靠性:

(1)冗余副本策略

(2)机架策略

(3)心跳机制

(4)安全模式

(5)校验和

(6)回收站

(7)元数据保护

(8)快照机制

© 著作权归作者所有

共有 人打赏支持
三平行者
粉丝 3
博文 31
码字总数 14655
作品 0
海淀
项目经理
深入浅出Hadoop: 高效处理大数据

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的...

bengozhong ⋅ 2016/02/26 ⋅ 0

业务增长400%,Uber如何快准稳扩容HDFS集群?

作者 | Ang Zhang , Wei Yan 编译 | 李瑞丰 编辑 | Emily Chen 三年前,Uber 采用 Hadoop 作为大数据分析系统中海量存储(HDFS)和并行计算(YARN)的底层架构方案。随着业务的发展,Uber ...

AI前线 ⋅ 05/01 ⋅ 0

hdfs源码详解系列(第一节)

hdfs基础架构介绍 hdfs简介 hdfs是hadoop distributed filesystem的缩写,设计思想最早源于GFS(google分布式文件系统),顾名思义就是hadoop分布式文件系统,简单通俗的将就是将一个大文件切...

dingyanming ⋅ 03/15 ⋅ 0

HDFS的架构和设计要点

虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为killme。 一、前提和设计目标 硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都...

xrzs ⋅ 2012/10/11 ⋅ 0

大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程 ⋅ 05/22 ⋅ 0

HDFS简介【全面讲解】

http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html 【一】HDFS简介 HDFS的基本概念1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M......

imzdx ⋅ 2016/01/14 ⋅ 0

从HDFS看分布式文件系统的设计需求

分布式文件系统的设计需求大概是这么几个:透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现,可以更清楚地看出HDFS的应用场景和设计理念。 首...

IT追寻者 ⋅ 2014/06/05 ⋅ 0

分布式系统基础架构--Hadoop

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(H...

匿名 ⋅ 2008/09/14 ⋅ 27

【Hadoop】数据存储----HDFS

一次写入,多次查询,写人关闭时,不支持修改,同一时间只有写或读一个操作,不支持并发写入情况,适合大数据 使用前提: 1.hdfs设计思路和实现目标 : 1.硬件错误检测和快速恢复;2.注重批量...

mengdonghui123456 ⋅ 2016/11/13 ⋅ 0

2014-11-09---Hadoop的基础学习(二)----HDFS的特性和JavaAPI源码分析

1.HDFS概览 HDFS 是一个 Apache Software Foundation 项目,是 Apache Hadoop 项目的一个子项目。Hadoop 非常适于存储大型数据(比如 terabytes和petabytes),并使用 HDFS 作为其存储系统。...

查封炉台 ⋅ 2014/11/10 ⋅ 6

没有更多内容

加载失败,请刷新页面

加载更多

下一页

6. Shell 函数 和 定向输出

Shell 常用函数 简洁:目前没怎么在Shell 脚本中使用过函数,哈哈,不过,以后可能会用。就像java8的函数式编程,以后获取会用吧,行吧,那咱们简单的看一下具体的使用 Shell函数格式 linux ...

AHUSKY ⋅ 3分钟前 ⋅ 0

MySQL 内核深度优化

MYSQL数据库适用场景广泛,相较于Oracle、DB2性价比更高,Web网站、日志系统、数据仓库等场景都有MYSQL用武之地,但是也存在对于事务性支持不太好(MySQL 5.5版本开始默认引擎才是InnoDB事务...

OSC_cnhwTY ⋅ 10分钟前 ⋅ 0

单片机软件定时器

之前写了一个软件定时器,发现不够优化,和友好,现在重写了 soft_timer.h #ifndef _SOFT_TIMER_H_#define _SOFT_TIMER_H_#include "sys.h"typedef void (*timer_callback_function)(vo...

猎人嘻嘻哈哈的 ⋅ 11分钟前 ⋅ 0

好的资料搜说引擎

鸠摩搜书 简介:鸠摩搜书是一个电子书搜索引擎。它汇集了多个网盘和电子书平台的资源,真所谓大而全。而且它还支持筛选txt,pdf,mobi,epub、azw3格式文件。还显示来自不同网站的资源。对了,...

乔三爷 ⋅ 20分钟前 ⋅ 0

Debian下安装PostgreSQL的表分区插件pg_pathman

先安装基础的编译环境 apt-get install build-essential libssl1.0-dev libkrb5-dev 将pg的bin目录加入环境变量,主要是要使用 pg_config export PATH=$PATH:/usr/lib/postgresql/10/bin 进......

玛雅牛 ⋅ 21分钟前 ⋅ 0

inno安装

#define MyAppName "HoldChipEngin" #define MyAppVersion "1.0" #define MyAppPublisher "Hold Chip, Inc." #define MyAppURL "http://www.holdchip.com/" #define MyAppExeName "HoldChipE......

backtrackx ⋅ 50分钟前 ⋅ 0

Linux(CentOS)下配置php运行环境及nginx解析php

【part1:搭建php环境】 1.选在自己需要安装的安装包版本,wget命令下载到服务器响应目录 http://php.net/releases/ 2.解压安装包 tar zxf php-x.x.x 3.cd到解压目录执行如下操作 cd ../php-...

硅谷课堂 ⋅ 56分钟前 ⋅ 0

Nginx服务架构初探(四):nginx服务器的rewrite功能

nginx服务器的rewrite功能 1.nginx后端服务器组的配置 1>upstream name {…} name是给服务器组限的组名 2>server address [parameters]; address为服务器地址 parame......

余温灬未存 ⋅ 今天 ⋅ 0

layer.prompt使文本框为空的情况下也能点击确定

最近一直在使用layui,但是用到弹出层layer.prompt时,如果文本框是空的话点击确定没有反应,不能向下执行。 但是我又需要空值,看看我原来的代码。 123456789 layer.prompt...

孟飞阳 ⋅ 今天 ⋅ 0

Linux普通文件压缩工具gzip、Bzip2、xz

第六章 文件压缩和打包 6.1 压缩打包介绍 Linux环境常见压缩文件类型: .zip,.gz,.bz2,.xz, .tar.gz,.tar.bz2,.tar.xz 压缩打包的目的 方便文件传输 节省磁盘空间 减少传输花费的时间 ...

弓正 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部