文档章节

Servicehot告诉你运维常说的 5个9、4个9、3个9啥意思?

ABBYY
 ABBYY
发布于 2017/09/06 10:13
字数 1597
阅读 9
收藏 0
点赞 0
评论 0

在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量智能运维其可靠性的标准——X个9,这个X是代表数字3~5。

  X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。

  3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。

  4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。

  5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

  那么X个9里的X只代表数字3~5,为什么没有1~2,也没有大于6的呢?我们接着往下计算:

  1个9:(1-90%)*365=36.5天

  2个9:(1-99%)*365=3.65天

  6个9:(1-99.9999%)*365*24*60*60=31秒

  可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词;而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。

  【1、MTBF】MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不能低于50000小时。

  【2、失效率】失效率是指工作到某一时刻尚未失效的产品,在该时刻后,单位时间内发生失效的概率。一般记为λ,它也是时间t的函数,故也记为λ(t),称为失效率函数,有时也称为故障率函数或风险函数。

  失效率 λ=1/MTBF,单位1FITs=10-9(1/h)

  【3、MTTR】MTTR,全称是Mean Time To Repair,即平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易恢复性越好。

  MTTR也必须包含获得配件的时间,维修团队的响应时间,记录所有任务的时间,还有将设备重新投入使用的时间。是一个缩写的平均时间恢复或平均修复时间代表的平均时间将有缺陷的部件或系统恢复工作秩序。 它是衡量一个系统的可维护性和可预测的平均所需的时间让系统工作的情况下再次出现系统故障。 MTTR可以从几个毫秒,如不间断电源(UPS)的许多数小时甚至数天的情况下的应用软件或复杂的机制。

  【4、修复率】修复率(μ) repair rate 产品维修性的一种基本参数。修理时间已达到某个时刻但尚未修复的产品,在该时刻后的单位时间内完成修理的概率。

  经常用到所谓4个9或者5个9,也就是99.99%与99.999%。那么,4个9或者5个9的差距有多大,差距是0.009%,还不到0.01%。但对于系统而言,恰恰是这不到0.01%的差距,决定了系统完全不在一个档次上。

  所谓5个9的系统,一年内不能正常工作的时间少于5分15秒。对应4个9的系统是不超过52分36秒。这些都是理论上的数据,在实际工作中有些故障导致的宕机时间远超过5分钟,即使采用大型主机,也有宕机4个多小时的惨痛教训。问题出在哪里?

  一个系统的可靠性并不完全取决于硬件,而由软件和硬件共同来决定,如果是软件问题,最好的解决办法就是打补丁、升级,再好的硬件也没有办法解决软件的问题。要提高系统的可靠性,软件是没有太好办法的,只有依靠厂商服务来解决问题。用户可以选择的只有硬件,其中,包括网络、服务器以及存储设备。其中,网络可以借助多运营商接入来解决,存储有RAID、快照等应对技术,通过备份来提高数据安全性。但对于服务器来说,更多用户的选择是采用双机集群的方法。

  采用双机集群的方案是达不到5个9的要求的。原因很简单,双机集群是通过集群软件来构建方案的,当其中的一台服务器产生故障的时候,切换到备份主机继续工作,保持业务连续性。设备之间也可以依靠心跳线连接对故障进行判定。对于集群而言,故障切换是有严格要求的,要求主机、备用机的环境是一致的。在应用实践中,要求管理要到位,例如同步升级、升级,打补丁。如果管理不到位,很有可能会导致切换失败。这也是为什么,系统可以在演示环境下成功切换,但现实中往往做不到的原因。

       了解更多关于ITSM系统以及工具方面的内容,可以关注一下我们ServiceHot 哦~

© 著作权归作者所有

共有 人打赏支持
ABBYY
粉丝 5
博文 347
码字总数 188111
作品 0
南京
开发自动化运维管理平台

开发自动化运维管理平台 流程图-和大致功能可以去下载附件。 自动化运维平台 备注附录: 目前自动化运维与部署管理系统有: ansible+jenkins saltstack puppet+func Chef OMserver fuel Kic...

English0523 ⋅ 2016/01/15 ⋅ 0

zabbix3.0监控详解

第1章 前言 1.1 我们的职责 1. 保障企业数据的安全可靠。 2. 为客户提供7*24小时服务。 3. 不断提升用户的体验。 http://blog.csdn.net/pan_tian/article/details/23270119 网站可用性 所谓网...

运维我生哥 ⋅ 2017/12/26 ⋅ 0

分布式存储系统GlusterFS安装配置

一、前言 前段时间我同事玩GlusterFS,下午总算有点时间了,也玩玩,GlusterFS是一个开源的分布式文件系统,于2011年被红帽收购.它具有高扩展性、高性能、高可用性、可横向扩展的弹性特点,无元...

xiaoyuan234 ⋅ 2014/12/15 ⋅ 0

CentOS7系统下修改网卡为eth0

一、编辑网卡信息 二、修改grub 也可以在开机启动加载安装系统界面设置。 三、验证是否修改成功 内容来自运维及架构班 徐亮偉架构师之路 博客 http://www.xuliangwei.com/xubusi/102.html 本...

技术小胖子 ⋅ 2017/11/17 ⋅ 0

分布式监控系统Zabbix-3.0.3--短信报警设置

前面已分别介绍了zabbix的邮件、微信报警设置,这些都是手机在有网络时才能收到报警信息,那如果手机没有网的情况下怎么办,这就需要考虑使用短信接口报警了。当服务出现故障达到预警级别是通...

吞吞吐吐的 ⋅ 2017/11/09 ⋅ 0

老男孩学习决心书

学习决心书 我叫程军,经过老男孩教育运维班5个月的学习后,我要成为一名在老师心中合格的优秀的运维工程师和架构师,且薪水目标是14K,为了达到目标我将采取如下行动: 1. 学习时做到空杯心...

jungiewolf ⋅ 2017/12/26 ⋅ 0

企业中如何防止他人破解你的密码

在公司运维的生产环境中,我们发现有人在破解你的root密码。那么任何才能让被人不能破解你的密码,并且访问其他服务可以正常使用。 查看TCP连接 netstat -an|grep -i es 用于统计登录失败次数...

Neo_robot ⋅ 2017/12/25 ⋅ 0

Linux运维每日都在做什么工作?Linux运维学习

  Linux系统在互联网公司应用越来越多,也有不少的朋友愿意加入运维的行列中,那么,运维每天都做什么工作呢?   运维人员做事需遵循“简单、易用、高效”的原则。对于运维服务有3大宗旨:...

老男孩Linux培训 ⋅ 06/04 ⋅ 0

招人—凡客诚品 数据中心系统工程师(海外及手机业务方向)

凡客诚品 数据中心系统工程师(海外及手机业务方向) 官方地址:http://job.vancl.com/Job/Details/BJJS000131 招聘网站投递: Zhaopin.com http://jobs.zhaopin.com/beijing/%E6%95%B0%E6%8...

bisheng.hu ⋅ 2011/05/04 ⋅ 0

企业云桌面-15-部署DHCP服务器-011-DC01

作者:学 无 止 境 QQ交流群:454544014 注意: 《企业云桌面》系列博文是《企业云桌面规划、部署与运维实践指南》的基础部分,因为书中内容涉及非常多,非常全面,所以基础部分将以博文的形...

CTO_LiuJinFeng ⋅ 2017/05/04 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部