文档章节

Hadoop分析

Kerry_Han
 Kerry_Han
发布于 2014/11/19 16:02
字数 594
阅读 23
收藏 0

1.HDFS 基本结构

分布式文件系统,高吞吐量,延迟较大, 主要结构包括namenode 和datanode节点。

问题:

1. namenode单点故障

2. datenode 通过协议进行副本同步

3. 为解决namenode单点故障问题,增加standby节点,如何进行同步???。 事实上Secondary Namenode并不能被用作Namenode它的主要作用是定期的将Namespace镜像与操作日志文件(edit log)合并,以防止操作日志文件(edit log)变得过大。通常,Secondary Namenode 运行在一个单独的物理机上,因为合并操作需要占用大量的CPU时间以及和Namenode相当的内存。辅助Namenode保存着合并后的Namespace镜像的一个备份,万一哪天Namenode宕机了,这个备份就可以用上了。虽然不完全是个namenode的备份,更确切的是个辅助节点)周期性将元数据节点的命名控件镜像文件和修改日志合并

4. 如何进行switchover? 依靠zookeeper,一方面负责活动点选择,一方面负责错误校验。也可以用作分布式锁,具体稍后研究zookeeper。

解答:

 namenode解决单点故障有两个方案,一个是利用本身提供的secondary namenode,但是有延迟,仅仅是备份,会造成数据丢失;第二种方法是同步并原子性写入本地硬盘的同时,也写入到一个NFS服务器。(NFS服务器挂掉的概率暂时不考虑)

2. HBASE

3. ZooKeeper

    Zookeeper的核心是一个精简的文件系统,它的原语操作是一组丰富的构件(building block),可用于实现很多协调数据结构和协议,包括分布式队列、分布式锁和一组同级节点中的“领导者选举”(leader election)。

      Zookeeper实现的是Paxos算法。Zookeeper集群启动后自动进行leader selection,投票选出一台机器作为Leader,其他的都是Follower。通过heartbeat的机制,Follower从Leader获取命令或者消息,同步自己的数据,和Leader保持一致。为了保证数据的一致性,只有当半数以上的Follower的状态和Leader成功同步了之后,才认为这次数据更新是成功的。为了选举方便,Zookeeper集群数目是奇数



参考:

http://blog.csdn.net/pelick/article/details/761949


© 著作权归作者所有

共有 人打赏支持
Kerry_Han
粉丝 14
博文 174
码字总数 54257
作品 0
海淀
程序员
私信 提问
Hadoop 目前只是“穷人的 ETL”

虽然企业部署Hadoop大数据系统的最终目的是进行“性感”的分析应用,但是大多数企业距离这一目标还很远很远。 根据IDC发布的Hadoop-MapReduce软件生态系统预测报告,Hadoop 市场正在以60%的年...

oschina
2013/05/16
11.5K
21
Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个question,一个可能的解决方案就是搭建Hadoop集群,但它并不适合...

八戒_o
2015/12/11
3.6K
0
Hadoop——相关组件及其关系

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。 Hadoop带来了廉价的处理...

追梦人wxf
2015/08/13
0
0
数据科学家调查:受挫数据多样性,吐槽 Hadoop

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而...

oschina
2014/07/31
4.1K
22
关于Apache Hadoop的常见问题解答

【IT168 技术】过去几年来,开源技术Apache Hadoop在BI和数据仓库专业人士当中已经变得相当流行。在本篇教程中,我们将通过回答一些关于Hadoop的常见问题来解释它的概念。   什么是Apache ...

TechTarget中国
2012/11/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

微服务分布式事务实现

https://www.processon.com/view/link/5b2144d7e4b001a14d3d2d30

WALK_MAN
今天
2
0
《大漠烟尘》读书笔记及读后感文章3700字

《大漠烟尘》读书笔记及读后感文章3700字: 在这个浮躁的社会里,你有多久没有好好读完一本书了? 我们总觉得自己和别人不一样,所以当看到别人身上的问题时,很少有“反求诸己”,反思自己。...

原创小博客
今天
3
0
大数据教程(9.5)用MR实现sql中的jion逻辑

上一篇博客讲解了使用jar -jar的方式来运行提交MR程序,以及通过修改YarnRunner的源码来实现MR的windows开发环境提交到集群的方式。本篇博主将分享sql中常见的join操作。 一、需求 订单数据表...

em_aaron
今天
3
0
十万个为什么之什么是resultful规范

起源 越来越多的人开始意识到,网站即软件,而且是一种新型的软件。这种"互联网软件"采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(high latency)、高并发等特点...

尾生
今天
3
0
Terraform配置文件(Terraform configuration)

Terraform配置文件 翻译自Terraform Configuration Terraform用文本文件来描述设备、设置变量。这些文件被称为Terraform配置文件,以.tf结尾。这一部分将讲述Terraform配置文件的加载与格式。...

buddie
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部