文档章节

不做背锅侠,运维工作要点指南

l
 linux-tao
发布于 2019/09/20 09:10
字数 1657
阅读 6
收藏 0

随着数据中心建设的规模不断扩大,新技术迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,给运维工作带来了极大的难度。数据中心宕机事故也难免发生,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来了巨大的损失,就连全球知名的互联网巨头也经常享受这般“待遇”。

不做背锅侠,运维工作要点指南不做背锅侠,运维工作要点指南

互联网巨头宕机不断,运维工作成难题

3月3日凌晨,阿里云出现宕机故障,导致购买阿里云服务的企业网站或互联网公司APP无法正常使用。一大波程序员、运营和运维不得不从被窝里爬起来干活。针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。

5月3日凌晨3点43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。

6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等。

6月25日消息,亚马逊在官网证实云计算服务出现了宕机,导致部分网络用户和多个AWS区域的网络连接受到了影响。出现故障的节点在AWS美东1区,共计33个服务受到影响,其中9个处于完全中断状态。

宕机事故频发,运维难度“更上一层楼”

一次次宕机事件证明了数据中心运维工作的重要性,但似乎不能避免。如今随着科技的进步万物互联时代的到来,数据中心作为重要基础设施发挥着重要作用,虽然数据中心在国内的发展只有十多年的时间,但已经从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临着更大的挑战,运维难度也“更上一层楼”。

首先,超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

减少人为失误,提升运维管理的专业技能

据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:

  • 建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。
  • 运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。
  • 实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。
  • 理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。
  • 实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。
  • 通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。

弥补人工运维不足,智能运维应运而生

如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即智能运维应运而生。如今更多的数据中心企业诸如腾讯、华为、京东等开始加大研发力度投入到智能运维的浪潮中来,将人工智能与运维结合,基于已有运维数据(日志、监控信息、应用信息等),通过机器学习的方法来提升运维效率,从而逐步取代人工的运维。相信未来数据中心将会越来越智能化。

原文来自:http://dc.idcquan.com/ywgl/169198.shtml

本文地址:https://www.linuxprobe.com/maintenance-points-guide.html编辑:姜 一 一,审核员:张文祥

Linux命令大全:https://www.linuxcool.com/

© 著作权归作者所有

l
粉丝 21
博文 1008
码字总数 1130720
作品 0
深圳
运维
私信 提问
加载中

评论(0)

来!选一款你最爱的鼠标垫,然后帅别人一脸!

相信不少IT人都有这种体验:但凡提起你是干IT的,别人第一反应多数都是宅、加班、黑眼圈、修电脑的……类似于这样 ↓ 不得不说,吃瓜群众对IT人的刻板印象早已根深蒂固,但仔细想想,其实咱们...

DBAplus社群
2018/03/28
0
0
运维工程师---互联网的幕后英雄

来源:马哥教育 链接:https://mp.weixin.qq.com/s/q5wzRrXzJn42SQqveiJ8mA 作为互联网的幕后英雄,运维工程师长期隐匿在大众认知范围之外,关于运维的讨论仍旧是一片无人涉足的荒漠。在某知...

Py爱好
2018/07/29
65
0
OnCloud上云的正确姿势之自动化运维--运维编排OOS深度介绍

常见的运维问题 人工运维 —— 机械性重复运维,效率地下,错误频发 工具辅助 —— 无法批量操作,批量运行状态缺乏管理,难以定位错误 业务发展过快,缺少运维积累,缺乏运维规范 多人运维缺...

云普
2019/07/09
0
0
一点不懂到小白的linux系统运维经历分享

进入运维行业刚不到二个年头, 刚刚从大白变成小白。都说it行业是青春的饭。但是运维行业可不这么认为。运维工程师便是经验技术的积累,经历的过的沟沟坑坑都会融入你的血液,成为你的智慧。...

linuxprobe16
2018/11/04
22
0
【关于数据的一场好戏】明天和意外哪个先来?别怕,找阿里云备份君!

近几年来,数据中心宕机事件屡见不鲜。 诸多的血淋淋事件证明,在遭遇突发事故时,企业是否具有灾难恢复能力,完全可以决定其生死存亡。因为数据是企业的命根子,这一点毫不夸张。 根据艾默生...

全部原谅
2018/08/20
3
0

没有更多内容

加载失败,请刷新页面

加载更多

你还在贴发票吗?区块链带你玩点不一样的

本文作者:HelloDeveloper 报销是不是你每个月最头疼的事情?除了贴一大堆票之外,还要等财务人员一张张审核、录入系统、统一打款。如果有差错,还会告诉你所有一切重新来过。 如果你是财务人...

百度开发者中心
2019/10/15
9
0
OSChina 周六乱弹 —— 代码创造人工生命

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @小小编辑推荐:《inner universe》 - ORIGA 《inner universe》 - ORIGA 手机党少年们想听歌,请使劲儿戳(这里) 当机器人具有意识的时候,...

小小编辑
40分钟前
9
1
怎么创建远程桌面连接

1、IIS7远程桌面 管理中文最新版是一款专业的远程桌面管理工具,更新了原09网络远程桌面管理,较之以前的版本,操作更加便捷,能够同时远程多台服务器,多台服务器间自由切换,完全无压力。I...

吹的心痒痒
今天
22
0
JSP中的MVC开发模式

原文链接:http://www.yiidian.com/jsp/jsp-mvc-model.html 1 什么是MVC模式 MVC,代表模型(Model),视图(View),控制器(Controller)。这是一种将业务逻辑,表现逻辑和数据分开的设计模...

ericxu1116
今天
20
0
作业调度哪种方式好,最终选了Quartz

随着云平台,大数据等的出现,用户或潜在访问者越来越想免费体验产品,特别是想申请系统(比如开虚拟机,启动docker等),可是系统硬件资源有限,那怎么才能让用户实际操作云平台资源呢,那就...

董广明
昨天
23
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部