文档章节

Ceph Jewel版本三副本写操作流程

linuxhunter
 linuxhunter
发布于 2016/05/20 14:17
字数 1803
阅读 657
收藏 2

一、主OSD写处理流程

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

     |__OSD::dispatch_op_fast()

          |__OSD::handle_op()

               |__OSD::get_pg_or_queue_for_pg()           找到OpRequest中对应的PG和Pool信息

               |__OSD::enqueue_op()

                    |__PG::queue_op()

                         |__OSD::ShardedThreadPool::ShardedWQ::queue()     将PG和Op一起放入队列中

 

OSD::ShardedOpWQ::_process()          负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

     |__OSD::dequeue_op()

          |__ReplicatedPG::do_request()

               |__检查当前PG是否处于flush或peering状态,若是则将op放入waiting_for_peered队列中等待PG变成可用状态

               |__检查当前PG是否处于Active状态,若不是则将op放入waiting_for_active队列中

               |__检查当前PG是否处于REPLAY状态,若是则将op放入waiting_for_active队列中

               |__ReplicatedPG::do_op()

                    |__RepliatedPG::do_pg_op()               对于请求中包含对PG的操作CEPH_OSD_RMW_FLAG_PGOP

                    |__根据op请求创建hobject_t类对象(head)

                    |__检查对象名字长度/对象locator key长度/对象locator名称空间长度是否大于osd_max_object_name_len

                    |__通过FileStore检查object的head是否有效

                    |__检查op请求地址是否在OSDMap的blacklist中

                    |__对于写请求,检查写请求的数据大小是否大于osd_max_write_size值

                    |__对于op请求的head目前不可读,则将op放入waiting_for_unreadable_object队列中且调用maybe_kick_recovery()函数尝试启动recovery

                    |__ReplicatedPG::is_degraded_or_backfilling_object()          检查当前op请求的head是否处于recovery或backfill状态

                    |__ReplicatedPG::wait_for_degraded_object()                       将当前op请求的head放入waiting_for_degraded_object队列中

                    |__检查head是否在objects_blocked_on_degraded_snap队列中,若是则将当前op请求的head放入waiting_for_degraded_object队列中

                    |__检查head是否在objects_blocked_on_snap_promotion队列中,若是则将当前op请求的head放入waiting_for_blocked_object队列中

                    |__检查head是否在objects_blocked_on_cache_full队列中,若是则将当前op请求的head放入waiting_for_cache_not_full队列中

                    |__检查head的snapdir是否不可读,若是则将head的snapdir放入waiting_for_unreadable_object队列中且调用maybe_kick_recovery()函数尝试启动recovery

                    |__检查head的snapdir是否处于recovery或backfill状态,若是则将head的snapdir放入waiting_for_degraded_object队列中

                    |__对于op写请求已经在PGLog中,则若已经完成了写操作则直接给客户端返回MOSDOpReply消息且设置CEPH_OSD_FLAG_ACK,否则将op放入到waiting_for_ack或waiting_for_ondisk队列中

                    |__ReplicatedPG::find_object_context()               得到object context信息

                    |__检查object context是否处于io blocked状态,若是则将op请求放入到waiting_for_blocked_object或waiting_for_degraded_object队列中

                    |__ReplicatedPG::execute_ctx()     

                         |__ReplicatedPG::prepare_transaction()

                         |__创建MOSDOpReply消息实例

                         |__ReplicatedPG::calc_trim_to()                    计算trim PGLog

                         |__ReplicatedPG::register_on_applied()          注册on_applied回调处理函数,对于op请求需要ack且此时没有向客户端发送过sent_ack或sent_disk,则创建MOSDOpReply消息且在消息上添加CEPH_OSD_FLAG_ACK标识后将MOSDOpReply消息发送给客户端

                         |__ReplicatedPG::register_on_commit()          注册on_committed回调处理函数, 对于op请求需要ack且此时没有向客户端发送过sent_disk,则创建MOSDOpReply消息且在消息上添加CEPH_OSD_FLAG_ACK和CEPH_OSD_FLAG_ONDISK标识后将MOSDOpReply消息发送给客户端

                         |__ReplicatedPG::register_on_success()          注册on_success回调处理函数

                         |__ReplicatedPG::register_on_finish()               注册on_finish回调处理函数

                         |__ReplicatedPG::new_repop()                         创建RepGather类对象

                         |__ReplicatedPG::issue_repop()

                              |__创建C_OSD_RepopCommit类对象,即:所有副本都完成commit后的回调函数类,在该函数中设置repop->all_committed=true,最后调用ReplicatedPG::eval_repop()

                              |__创建C_OSD_RepopApplied类对象,即:所有副本都完成applied后的回调函数类,在该函数中设置repop->all_applied=true,最后调用ReplicatedPG::eval_repop()

                              |__ReplicatedBackend::submit_transaction()

                                   |__ReplicatedBackend::issue_op()     

                                        |__ReplicatedBackend::generate_subop()           创建MOSDRepOp消息类对象

                                        |__ReplicatedPG::send_message_osd_cluster()         

                                             |__OSD::send_message_osd_cluster()               将MOSDRepOp消息发送给副本所在的OSDs节点

                                   |__创建C_OSD_OnOpApplied类对象,用来处理本地applied完成后的回调函数类

                                   |__创建C_OSD_OnOpCommit类对象,用来处理本地commit完成后的回调函数类

                                   |__RepliatedPG::queue_transactions()

                                        |__ObjectStore::queue_transactions()

                                             |__FileStore::queue_transactions()     

                                                  |__JournalingObjectStore::_op_journal_tranactions()

                                                       |__FileJournal::submit_entry()                    将写日志请求提交到日志任务队列中,日志写完后回调C_JournaledAhead类对象

                         |__ReplicatedPG::eval_repop()

                              |__检查repop->rep_done是否完成

                              |__检查repop->all_commit,即:是否所有副本都完成日志写入,若完成则回调on_committed()回调函数

                              |__检查repop->all_applied,即:是否所有副本都完成落盘,若完成则回调on_applied()回调函数

                              |__检查repop->all_commit和repop->all_applied,即:是否所有副本都完成写入操作,若完成则调用repop->on_success()回调函数

 

本地写日志完成后的处理流程

C_JournaledAhead::finish()

|__FileStore::_journaled_ahead()

     |__FileStore::queue_op()                    将写请求放入到FileStore的op_wq队列中

     |__回调C_OSD_OnOpCommit类对象的处理函数

 

本地数据落盘处理流程

FileStore::_do_op()

|__从op_wq队列中读取写请求

|__FileStore::_do_transactions()     执行实际的写数据操作

本地数据落完完成后的处理流程

FileStore::_finish_op()

|__回调C_OSD_OnOpApplied类对象的处理函数

 

 

二、副本OSD处理主OSD发送过来的写请求(消息是MOSDRepOp,消息类型是MSG_OSD_REPOP)

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

     |__OSD::dispatch_op_fast()

          |__OSD::handle_replica_op()

               |__检查发送方有效性

               |__OSD::get_pg_or_queue_for_pg()           找到OpRequest中对应的PG和Pool信息

               |__OSD::enqueue_op()

                    |__PG::queue_op()

                         |__OSD::ShardedThreadPool::ShardedWQ::queue()     将PG和Op一起放入队列中

 

OSD::ShardedOpWQ::_process()          负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

     |__OSD::dequeue_op()

          |__ReplicatedPG::do_request()

               |__ReplicatedBackend::handle_message()

                    |__ReplicatedBackend::sub_op_modify()

                         |__ReplicatedPG::log_operation()

                              |__PG::append_log()                         写PGLog

                         |__创建C_OSD_RepModifyCommit类实例,用于处理日志commit完成后的回调处理

                         |__创建C_OSD_RepModifyApply类实例,用于处理数据落盘完成后的回调处理

                         |__ReplicatedPG::queue_transactions()

                              |__FileStore::queue_transactions()

                                   |__JournalingObjectStore::_op_journal_tranactions()

                                        |__FileJournal::submit_entry()                    将写日志请求提交到日志任务队列中,日志写完后回调C_JournaledAhead类对象

 

本地写日志完成后的处理流程

C_JournaledAhead::finish()

|__FileStore::_journaled_ahead()

     |__FileStore::queue_op()                    将写请求放入到FileStore的op_wq队列中

     |__回调C_OSD_RepModifyCommit类对象的处理函数

 

本地数据落盘处理流程

FileStore::_do_op()

|__从op_wq队列中读取写请求

|__FileStore::_do_transactions()     执行实际的写数据操作

本地数据落完完成后的处理流程

FileStore::_finish_op()

|__回调C_OSD_RepModifyApply类对象的处理函数

 

 

三、主OSD处理副本OSDs发送过来的MOSDRepOpReply消息处理流程(消息类型MSG_OSD_REPOPREPLY)

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

     |__OSD::dispatch_op_fast()

          |__OSD::handle_replica_op()

               |__检查发送方有效性

               |__OSD::get_pg_or_queue_for_pg()           找到OpRequest中对应的PG和Pool信息

               |__OSD::enqueue_op()

                    |__PG::queue_op()

                         |__OSD::ShardedThreadPool::ShardedWQ::queue()     将PG和Op一起放入队列中

 

OSD::ShardedOpWQ::_process()          负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

     |__OSD::dequeue_op()

          |__ReplicatedPG::do_request()

               |__ReplicatedBackend::handle_message()

                    |__ReplicatedBackend::sub_op_modify_reply()

                         |__对于设置了CEPH_OSD_FLAG_ONDISK标识的消息来说,删除waiting_for_commit队列中对应的OSD ID

                         |__删除waiting_for_applied队列中对应的OSD ID

                         |__对于waiting_for_commit队列为空,则调用C_OSD_RepopCommit类对象的回调函数

                         |__对于waiting_for_applied队列为空,则调用C_OSD_RepopApplied类对象的回调函数

 

四、回调函数类处理

C_OSD_RepModifyCommit类处理流程

C_OSD_RepModifyCommit::finish()

|__ReplicatedBackend::sub_op_modify_commit()

     |__创建MOSDRepOpReply消息且设置CEPH_OSD_FLAG_ONDISK标识

     |__ReplicatedPG::send_message_osd_cluster()

          |__OSD::send_message_osd_cluster()                    将MOSDRepOpReply消息发送回主OSD

 

C_OSD_RepModifyApply类处理流程

C_OSD_RepModifyApply::finish()

|__ReplicatedBackend::sub_op_modify_applied()

     |__创建MOSDRepOpReply消息且设置CEPH_OSD_FLAG_ACK标识(针对没有进行日志处理的情况)

     |__ReplicatedPG::send_message_osd_cluster()

          |__OSD::send_message_osd_cluster()                    将MOSDRepOpReply消息发送回主OSD

 

C_OSD_OnOpCommit处理流程

C_OSD_OnOpCommit::finish()

|__ReplicatedBackend::op_commit()

     |__删除waiting_for_commit数组中对应OSD ID信息

     |__检查waiting_for_commit数组是否为空,若为空则调用C_OSD_RepopCommit类对象的回调函数

    

C_OSD_OnOpApplied处理流程

C_OSD_OnOpApplied::finish()

|__ReplicatedBackend::op_applied()

     |__删除waiting_for_applied数组中对应OSD ID信息

     |__检查waiting_for_applied数组是否为空,若为空则调用C_OSD_RepopApplied类对象的回调函数

© 著作权归作者所有

linuxhunter
粉丝 72
博文 144
码字总数 93264
作品 0
沈阳
高级程序员
私信 提问
Ceph Jewel版本三副本读操作流程

一、主OSD读处理流程 OSD::msfastdispatch() __OSD::dispatch_session_waiting() __OSD::dispatch_op_fast() __OSD::handle_op() __OSD::get_pg_or_queue_for_pg() 找到OpRequest中对应的PG和......

linuxhunter
2016/05/20
715
0
快速构建ceph可视化监控系统

前言 ceph的可视化方案很多,本篇介绍的是比较简单的一种方式,并且对包都进行了二次封装,所以能够在极短的时间内构建出一个可视化的监控系统 本系统组件如下: ceph-jewel版本 ceph_expor...

万建宁
2018/07/19
187
0
闲聊Ceph目前在中国的发展&Ceph现状

近年来,大型企业以及开源社区不断的推动中国开源技术的发展,今天的中国已然成为OpenStack & Ceph等开源技术大放光彩的乐土。 图为 Ceph中国行各地沙龙 Ceph国内用户生态 Ceph作为全球最火热...

Devin
2017/06/01
0
0
Ceph集群由Jewel版本升级到Luminous版本

参考文档 https://www.virtualtothecore.com/en/upgrade-ceph-cluster-luminous/ http://www.chinastor.com/distristor/11033L502017.html 缘起 首先看之前安装版本链接及测试 http://blog.......

minminmsn
2018/07/11
0
0
闲聊Ceph目前在中国的发展Ceph现状

近年来,大型企业以及开源社区不断的推动中国开源技术的发展,今天的中国已然成为OpenStack & Ceph等开源技术大放光彩的乐土。 图为 Ceph中国行各地沙龙 Ceph国内用户生态 Ceph作为全球最火热...

三石头
2017/11/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

技术分享 | MySQL 8.0:字符集从 utf8 转换成 utf8mb4

作者:胡呈清 整理 MySQL 8.0 文档时发现一个变更:默认字符集由 latin1 变为 utf8mb4。想起以前整理过字符集转换文档,升级到 MySQL 8.0 后大概率会有字符集转换的需求,在此正好分享一下。...

爱可生
14分钟前
2
0
不管单机还是集群的限流实现已经给你准备好了

限流算法 计数器算法 维护一个counter,规定在单位时间内counter的大小不能超过最大值,每隔固定时间就将counter的值置零。如果这个counter大于设定的阈值,那么系统就拒绝请求 漏桶算法 维护...

阿提说说
26分钟前
3
0
文件管理

通过CLI登录进行文件管理 .表示当前目录,..表示父目录,具有隐藏文件。支持缩写与TAB键补全 1、目录操作 pwd#打印工作目录 cd <directory>#改变工作目录 dir [/all][<directory>]#查看目录内...

悠悠子佩
28分钟前
3
0
Netty学习笔记(10)——Netty中的Channel组件

1. Channel的功能 1. 与NIO中的Channel一样,它实现了网络操作的抽象类,聚合了一系列的网络IO功能,包括读写数据、建立连接、关闭连接等功能。通过外观模式,将数据读写、连接建立与断开等操...

江左煤郎
32分钟前
2
0
二叉树的深度

从根结点到叶结点依次经过的结点(含根、叶结点)形成树的一条路径,最长路径的长度为树的深度。 public int TreeDepth(TreeNode root) { return root == null ? 0 : 1 + Math.max(Tree...

Garphy
39分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部