文档章节

storm在zookeeper中的目录结构

hiqj
 hiqj
发布于 2015/08/03 15:53
字数 976
阅读 701
收藏 0

资料来源:Twitter Storm源代码分析之ZooKeeper中的目录结构

1、本机zookeeper中,storm目录结构

[zk: 127.0.0.1:2181(CONNECTED) 12] ls /storm
[workerbeats, errors, supervisors, storms, assignments]
[zk: 127.0.0.1:2181(CONNECTED) 13]

2、在zookeeper中保存的数据目录结构

一个要注意的地方是,作者在代码里面很多地方用到的storm-id, 其实就是topology-id的意思。我在邮件列表里面问了他一下, 他说以前他把topology叫做storm, 代码里面还没有改过来。

/-{storm-zk-root}           -- storm在zookeeper上的根
  |                            目录
  |
  |-/assignments            -- topology的任务分配信息
  |   |
  |   |-/{topology-id}      -- 这个下面保存的是每个
  |                            topology的assignments
  |                            信息包括: 对应的
  |                            nimbus上的代码目录,所有
  |                            task的启动时间,
  |                            每个task与机器、端口的映射
  |
  |-/tasks                  -- 所有的task
  |   |
  |   |-/{topology-id}      -- 这个目录下面id为
  |       |                    {topology-id}的topology
  |       |                    所对应的所有的task-id
  |       |
  |       |-/{task-id}      -- 这个文件里面保存的是这个
  |                            task对应的component-id:
  |                            可能是spout-id或者bolt-id
  |
  |-/storms                 -- 这个目录保存所有正在运行
  |   |                        的topology的id
  |   |
  |   |-/{topology-id}      -- 这个文件保存这个topology
  |                            的一些信息,包括topology的
  |                            名字,topology开始运行的时
  |                            间以及这个topology的状态
  |                            (具体看StormBase类)
  |
  |-/supervisors            -- 这个目录保存所有的supervisor
  |   |                        的心跳信息
  |   |
  |   |-/{supervisor-id}    -- 这个文件保存的是supervisor
  |                            的心跳信息包括:心跳时间,主
  |                            机名,这个supervisor上worker
  |                            的端口号运行时间
  |                            (具体看SupervisorInfo类)
  |
  |-/taskbeats              -- 所有task的心跳
  |   |
  |   |-/{topology-id}      -- 这个目录保存这个topology的所
  |       |                    有的task的心跳信息
  |       |
  |       |-/{task-id}      -- task的心跳信息,包括心跳的时
  |                            间,task运行时间以及一些统计
  |                            信息
  |
  |-/taskerrors             -- 所有task所产生的error信息
      |
      |-/{topology-id}      -- 这个目录保存这个topology下面
          |                    每个task的出错信息
          |
          |-/{task-id}      -- 这个task的出错信息

3、现版本中storm在zookeeper中的结构图(资料来源:http://segmentfault.com/a/1190000000653595)

/-{storm-zk-root}           -- storm在zookeeper上的根目录(默认为/storm)
  |
  |-/assignments            -- topology的任务分配信息
  |   |
  |   |-/{topology-id}      --  这个目录保存的是每个topology的assignments信息包括:对应的nimbus上
  |                         --  的代码目录,所有task的启动时间,每个task与机器、端口的映射。操作为
  |                         --  (assignments)来获取所有assignments的值;以及(assignment-info storm-id)
  |                         --  来得到给定的storm-id对应的AssignmentInfo信息
  |                         --  在AssignmentInfo中存储的内容有:
  |                         --  :executor->node+port :executor->start-time-secs :node->host
  |                         --  具体定义在common.clj中的
  |                         --  (defrecord Assignment[master-code-dir node->host executor->node+port                                    executor->start-time-secs])                        
  |
  |-/storms                 -- 这个目录保存所有正在运行的topology的id
  |   |
  |   |
  |   |-/{topology-id}      -- 这个文件保存这个topology的一些信息,包括topology的名字,topology开始运行
  |                         -- 的时间以及这个topology的状态。操作(active-storms),获得当前路径活跃的下
  |                         -- topology数据。保存的内容参考类StormBase;(storm-base storm-id)得到给定的
  |                         -- storm-id下的StormBase数据,具体定义在common.clj中的
  |      -- (defrecord StormBase [storm-name launch-time-secs status num-workers component->executors])
  |
  |-/supervisors            -- 这个目录保存所有的supervisor的心跳信息
  |   |                        
  |   |
  |   |-/{supervisor-id}    -- 这个文件保存supervisor的心跳信息包括:心跳时间,主机名,这个supervisor上
  |                         -- worker的端口号,运行时间(具体看SupervisorInfo类)。操作(supervisors)得到
  |                         -- 所有的supervisors节点;(supervisor-info supervisor-id)得到给定的
  |                         -- supervisor-id对应的SupervisorInfo信息;具体定义在common.clj中的
  |                            
  |       -- (defrecord SupervisorInfo [time-secs hostname assignment-id used-ports meta scheduler-meta              uptime-secs])
  |
  |-/workerbeats                    -- 所有worker的心跳
  |   |
  |   |-/{topology-id}              -- 这个目录保存这个topology的所有的worker的心跳信息
  |       |
  |       |-/{supervisorId-port}    -- worker的心跳信息,包括心跳的时间,worker运行时间以及一些统计信息
  |                                        
  |                                 -- 操作(heartbeat-storms)得到所有有心跳数据的topology,
  |                                 -- (get-worker-heartbeat storm-id node port)得到具体一个topology下
  |                                 -- 的某个worker(node:port)的心跳状况,
  |                          -- (executor-beats storm-id executor->node+port)得到一个executor的心跳状况
  |
  |-/errors                  -- 所有产生的error信息
  |
  |-/{topology-id}           -- 这个目录保存这个topology下面的错误信息。操作(error-topologies)得到出错
      |                      -- 的topology;(errors storm-id component-id)得到
      |                      -- 给定的storm-id component-id下的出错信息
      |-/{component-id}


本文转载自:http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/

hiqj
粉丝 24
博文 208
码字总数 92586
作品 0
渝北
程序员
私信 提问
年薪40万的大数据工程师是如何安装Strom

Strom集群的安装配置 主机规划 一、准备服务器 l 关闭防火墙 chkconfig iptables off && setenforce 0 l 创建用户 groupadd hadoop && useradd hadoop  && usermod -a -G hadoop hadoop l ......

爱尚实训
2018/04/23
0
0
Storm入门 第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。 3.1 Storm集群组件 Storm集群中包含...

坏坏一笑
2014/12/03
0
0
Storm概念讲解和工作原理介绍

Strom的结构 Storm与传统关系型数据库 传统关系型数据库是先存后计算,而storm则是先算后存,甚至不存 传统关系型数据库很难部署实时计算,只能部署定时任务统计分析窗口数据 关系型数据库重...

张超
2015/04/26
0
0
apache-storm分布式计算(drpc)开发心得

首先这东西是个拼凑出来的东西,啥zookeeper,nimbus,supervisor,drpc,一个服务不能少。对于我来说一开始不是部署集群还可以,大致步骤是先装zookeeper,这东西运行起来后,你才能跑nimbu...

uaisunshine
2015/03/27
0
2
Twitter Storm Ubuntu 单机安装

第 121 章 Twitter Storm 目录 121.1. 单机版121.2. lein 安装 121.1. 单机版 操作系统环境:Ubuntu 13.04 KVM虚拟机 安装 storm 涉及到安装以下包:python、zookeeper、zeromq、jzmq、storm...

netkiller-
2013/08/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

八、RabbitMQ的集群原理

集群架构 写在前面 RabbitMQ集群是按照低延迟环境设计的,千万不要跨越WAN或者互联网来搭建RabbitMQ集群。如果一定要在高延迟环境下使用RabbitMQ集群,可以参考使用Shovel和Federation工具。...

XuePeng77
今天
1
0
mac系统下,brew 安装mysql,用终端可以连接,navicat却连接不上?

问题: 1.报错? 2059 - Authentication plugin 'caching_sha2_password' cannot be loaded: dlopen(../Frameworks/caching_sha2_password.so, 2): image not found 2.自己通过设置,已经把密......

写bug的攻城狮
昨天
2
0
老生常谈,HashMap的死循环

问题 最近的几次面试中,我都问了是否了解HashMap在并发使用时可能发生死循环,导致cpu100%,结果让我很意外,都表示不知道有这样的问题,让我意外的是面试者的工作年限都不短。 由于HashMap...

群星纪元
昨天
4
0
拉普拉斯算子

拉普拉斯算子是二阶微分算子。 我们知道,一维离散信号一阶微分公式如下: 相应的,一维离散信号二阶微分公式如下: 由于图像有x和y两个方向,因此图像信号属于二维离散信号。其在x,y两个...

yepanl
昨天
3
0
记录"正则表达式"

详细请查看我的博客:https://blog.enjoytoshare.club/article/RegularExpression.html 1 写在前面 正则表达式(Regular Expression)在代码中常常简写为regex。正则表达式通常被用来检索、替...

wugenqiang
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部