加载中
yarn 状态机

每个有状态且存在复杂状态转换的对象都包含一个状态机 例如org.apache.hadoop.mapreduce.v2.app.job.impl.JobImpl 代表一个mr job,其内部就包含一个状态机: public class JobImpl impleme...

UnderReplicatedBlocks处理流程

hdfs处理block副本不足、分布不合理的流程如下: 优先级解释: QUEUE_HIGHEST_PRIORITY: the blocks that must be replicated first. That is blocks with only one copy, or blocks with ze...

LightWeightGSet

为了降低保存block的内存开销,同时保证访问效率,namenode使用 LightWeightGSet这一数据结构。 LightWeightGSet同HashMap一样使用数组 + 链表的结构,但是有几点不同: 数组长度初始化时就确...

hadoop SLA

SLA:Service Level Authorization(服务层授权) sla 通过配置访问策略来控制哪些用户、哪些用户组、哪些机器可以访问特定的服务。 如果启用了sla (hadoop.security.authorization=true),则每...

hdfs Balancer剖析

balance过程就是从存储使用率超出集群平均使用率的datanode上将超出的block移动到低于集群平均使用率的datanode上,最终满足平衡标准。 over-utilized------>under-utilized over-utilized--...

FSEditLog之edit 记录过程

HA模式下所有对namespace的修改操作都会被nn优先记录[HDFS-2874]到jnode集群以便跟snn共享,然后再记录到nn本地文件中。 通常JournalSet中维护了两类记录edit的方式: 通过QuorumOutputStrea...

Standby Namenode Checkpoint过程剖析

Standby Namenode(sbn)在进入standby状态后对FSNamesystem调用startStandbyServices(final Configuration conf),该方法会创建两个重要的对象:EditLogTailer 和 StandbyCheckpointer,前者有...

hdfs元数据文件(fsimage、edits)清理

Standby namenode (sbn)的EditLogTailer的功能之一就是触发Active Namenode(nn) rollEditLog。每隔${dfs.ha.tail-edits.period}秒(默认60)秒,EditLogTailer检测一次当前时间距离上一次roll的...

hdfs auditlog(审计日志)

hdfs审计日志(Auditlog)记录了用户针对hdfs的所有操作,详细信息包括操作成功与否、用户名称、客户机地址、操作命令、操作的目录等。对于用户的每一个操作,namenode都会将这些信息以key-val...

FSEditLog之核心类分析

1、JournalSet JournalSet是维护Journals的集合,FSEditLog通过initJournals(List dirs)填充该集合。 private synchronized void initJournals(List dirs) { int minimumRedundantJournals =...

hadoop集群间数据迁移工具

背景 当前比较流行的hdfs间数据迁移工具有hadoop默认提供的distcp,阿里开源的DataX,这些工具能够满足常规的大部分需求,但是当时碰到hadoop版本不一致、keberos授权等场景时就行不通了。针...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部