文档章节

Hadoop分析

Kerry_Han
 Kerry_Han
发布于 2014/11/19 16:02
字数 594
阅读 23
收藏 0

1.HDFS 基本结构

分布式文件系统,高吞吐量,延迟较大, 主要结构包括namenode 和datanode节点。

问题:

1. namenode单点故障

2. datenode 通过协议进行副本同步

3. 为解决namenode单点故障问题,增加standby节点,如何进行同步???。 事实上Secondary Namenode并不能被用作Namenode它的主要作用是定期的将Namespace镜像与操作日志文件(edit log)合并,以防止操作日志文件(edit log)变得过大。通常,Secondary Namenode 运行在一个单独的物理机上,因为合并操作需要占用大量的CPU时间以及和Namenode相当的内存。辅助Namenode保存着合并后的Namespace镜像的一个备份,万一哪天Namenode宕机了,这个备份就可以用上了。虽然不完全是个namenode的备份,更确切的是个辅助节点)周期性将元数据节点的命名控件镜像文件和修改日志合并

4. 如何进行switchover? 依靠zookeeper,一方面负责活动点选择,一方面负责错误校验。也可以用作分布式锁,具体稍后研究zookeeper。

解答:

 namenode解决单点故障有两个方案,一个是利用本身提供的secondary namenode,但是有延迟,仅仅是备份,会造成数据丢失;第二种方法是同步并原子性写入本地硬盘的同时,也写入到一个NFS服务器。(NFS服务器挂掉的概率暂时不考虑)

2. HBASE

3. ZooKeeper

    Zookeeper的核心是一个精简的文件系统,它的原语操作是一组丰富的构件(building block),可用于实现很多协调数据结构和协议,包括分布式队列、分布式锁和一组同级节点中的“领导者选举”(leader election)。

      Zookeeper实现的是Paxos算法。Zookeeper集群启动后自动进行leader selection,投票选出一台机器作为Leader,其他的都是Follower。通过heartbeat的机制,Follower从Leader获取命令或者消息,同步自己的数据,和Leader保持一致。为了保证数据的一致性,只有当半数以上的Follower的状态和Leader成功同步了之后,才认为这次数据更新是成功的。为了选举方便,Zookeeper集群数目是奇数



参考:

http://blog.csdn.net/pelick/article/details/761949


© 著作权归作者所有

Kerry_Han
粉丝 15
博文 174
码字总数 54257
作品 0
海淀
程序员
私信 提问
Hadoop 目前只是“穷人的 ETL”

虽然企业部署Hadoop大数据系统的最终目的是进行“性感”的分析应用,但是大多数企业距离这一目标还很远很远。 根据IDC发布的Hadoop-MapReduce软件生态系统预测报告,Hadoop 市场正在以60%的年...

oschina
2013/05/16
11.7K
21
Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个question,一个可能的解决方案就是搭建Hadoop集群,但它并不适合...

八戒_o
2015/12/11
3.8K
0
Hadoop——相关组件及其关系

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。 Hadoop带来了廉价的处理...

追梦人wxf
2015/08/13
140
0
关于Apache Hadoop的常见问题解答

【IT168 技术】过去几年来,开源技术Apache Hadoop在BI和数据仓库专业人士当中已经变得相当流行。在本篇教程中,我们将通过回答一些关于Hadoop的常见问题来解释它的概念。   什么是Apache ...

TechTarget中国
2012/11/16
0
0
Hadoop到底是什么? 到底能做什么?

调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!) hadoop是什么? Hadoop是一个开...

天呀鲁哇
2015/03/13
350
3

没有更多内容

加载失败,请刷新页面

加载更多

怎样在磁盘上查找MySQL表的大小?这里有答案

导读 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应该在 INFORMATION_SCHEMA.TABLES 中提供这些信息吗?没那么简单! 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎...

问题终结者
19分钟前
5
0
jQuery load() 方法实现加载远程数据

jQuery load() 方法是简单但强大的 AJAX 方法。load() 方法从服务器加载数据,并把返回的数据放入被选元素中。 语法: $(selector).load(URL,data,callback);必需的 URL 参数规定您希望加载的...

前端老手
20分钟前
3
0
Spring Boot缓存实战 Redis 设置有效时间和自动刷新缓存-2

问题 上一篇Spring Boot Cache + redis 设置有效时间和自动刷新缓存,时间支持在配置文件中配置,说了一种时间方式,直接扩展注解的Value值,如: @Override@Cacheable(value = "people#${s...

xiaolyuh
28分钟前
9
0
怎样在磁盘上查找MySQL表的大小?这里有答案

我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应该在 INFORMATION_SCHEMA.TABLES 中提供这些信息吗?没那么简单! 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应...

Linux就该这么学
53分钟前
5
0
Redis

一、Redis支持的几种数据类型:字符串、List、SET、HASH、ZSET 二、Redis的缓存技术主要是为了降低关系数据库的负载并减少网站成本 三、在Redis里面,被MULTI命令和EXEC命令包围的所有命令会...

BobwithB
55分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部