文档章节

运维管理的一些感悟

木雨山
 木雨山
发布于 2016/05/27 14:15
字数 2103
阅读 357
收藏 6

   运维墨菲定律,请每天读一遍以下的内容,可以自省。
1,任何事情都没有表面看起来那么简单
2,所有的事情都会比你预计的时间长
3,会出错的事总会出错
4,如果你担心某种事情会发生,那么它更有可能发生
5,如果第一次便成功,显然你已经做错某事
6,当一切都朝着一个方向进行,最好朝着相反的方向深深的看一眼
7,自动消失的问题会自动回来
8,若大家的想法都差不多,显然没有一个人是在认真的思考
9,好的开始,未必就有好的结果,坏的开始,结果往往会更坏
10,必须永远假设你的假设无效
11,教育无法取得才智

   这里不会讲具体的技术和流程,旨在讨论如何减少人为事故,规避未知风险,制定实用流程。工作中领导经常说的一句话就是“运维无小事”。一个小的操作失误可能就会引起巨大的损失。运维人员做事需要的就是细心,细心,再细心,仔细,仔细,再仔细。

    作为运维人员口碑是在公司的立身之本,运维想要在公司内做出成绩真的很不容易,面对突如其来的故障,各个部门的技术支持,还有服务器费用的庞大支出,要想在工作中寻找出一些亮点确实不易。将自己的名字当一个品牌来运营,作为一名运维人员,在日常工作中我们遇到麻烦的事情不计其数,需要沟通的部门也很多。如何在公司中经营自己就显得十分重要。只有有了好的口碑,凸显了自己的重要性,才会在公司中立于不败之地,才会有上升的资本。所以不广是专研技术重要,沟通做事也非常重要,有些时候我们解决了问题,但是没有沟通好,最后也没有转换为成绩。有些时候我们遇到无法解决的问题,但是沟通好了,最后也会得到别人的认可。我们要做到态度有结果,沟通有跟踪,总之就是要做到有始有终。

运维目标:安全,稳定,高效,节约
    安全,公司的运维首先应当将安全放在在第一位,安全漏洞,信息泄露这些都会关系到公司的未来发展甚至是生死存亡,发生在互联网公司的信息泄露事件不在少数都给这些公司造成很大的负面影响,要想挽回这些影响资金上的付出是很大的。所以安全是重中之重。
    稳定,在安全的前提下保证业务的稳定运行是我们运维人认真考虑的,系统的稳定性关系到用户的体验效果,重要程度不言而喻,这里不再赘述。
    高效,高效的利用一切资源,让它们发挥最大的价值。
    节约,硬件成本的支出,是公司支出的大头,如何从硬件上节约成本是我们值得考虑的点,我们赚不了钱,但是我们可以省钱。

流程管理
    流程在我们工作中是必须要有的,在工作中流程有很多,但是真正按照流程严格执行的又有几个。相信大家都会会心一笑,很多流程都是用来秋后算账的,当你的工作出现失误了,领导就会翻出流程对你一顿批斗。这个当然也怪不得领导,因为很多流程都是我们自己起草制定的,所以我们在制定流程的时候就应该多加考虑,及要考虑流程的可行性,也要能让领导接受它。那么什么样的流程是一个好的流程呢?这里有一个小故事,有一位著名的建筑设计大师,设计迪士尼乐园经过三年的精心施工,马上就要对外开放了,然而,各个景点之间的道路该怎样连接还没有确定最后的方案。这个大师让施工部在乐园的地上撒上草种,提前开放,小草长出来后,乐园开放,游客可以在草地上随意行走,在迪斯尼乐园提前开放的半年里,草地被踩出许多条小道,这些小道有宽有窄,优雅自然,随后这位大师让人按这些踩出的痕迹铺设人行道。最后这位大师因为这条小道获得世界大奖。

日常操作
    作为运维,服务器的日常维护操作是很频繁的事情,如何做好操作记录很有必要。如果是重复的事情要模板化,流程的事情要自动化,这样可以很大程度上减少出错的概率。
    有一些特殊的操作就需要在操作前先写操作步骤,越详细越好,不能在心里有了想法就到服务器上随心而为。目的明确了,在心里预想一下会减少很大的出错几率。操作完毕后一定要以截图的方式记录操作结果。

监控报警
    这里不讨论那种监控工具的优劣,各个监控工具的工作方式都大同小异,报警方式无外乎短信,邮件等一些常用方式。但是在我的工作当中,服务器有几千台,报警有很多类型,某一时刻可能会收到几十条,上百条,一条一条查看运维人员很容易忽略。所以我们需要对发出去的报警信息进行二次加工,进行合并,分类。将同一类型的报警合并,按照紧急程度分类。还有对于报警形式我认为应该采取让人强制被动接受的方式,如:使用大屏幕显示,扬声器报警,将报警发送到运维的微信群中等等形式。这样可以大大减少运维人员的漏看,忽略等情况,还可以根据报警级别提示运维人员做下一步操作动作。

故障处理
    对于运维来说处理故障就是家常便饭,处理故障的时间和方法是分别运维能力的重要指标,经验越多处理故障会越快方法也会更准确,这里的经验也包括使用搜索引擎的技巧。在我看来,直觉也是相当重要的,可能在一些有明显的提示的故障问题上没什么作用,但是遇到一些日志提示模糊就会显现出来,直觉会让你拨开迷雾寻找到最快解决问题方法。如何提升自己的直觉呢,直觉来自经验,经验来自不断的自我学习和尝试。遇到问题不要逃避,你是逃不了的,所以就迎难而上积累经验吧。
    这里还想说的一点就是问题解决后的邮件回复,既然要将自己当品牌来运营,那么我们交出去的东西就应该是一个产品,什么是好的产品,能成为好的产品就应该是完美的,无可挑剔的,让人心里舒畅的。那么我们回复的邮件应该包含以下几点:问题解决结果,问题原因,问题解决过程,将来可能遇到的问题,建议等。

技术减少人为事故
    是人总是会犯错的,作为运维如何减少犯错的几率呢,最好的办法就是用技术来解决,如将命令行操作改为选择操作,增加审批流程。这些就需要我们完善自动化运维平台,运维人员不再需要登录到服务器上做操作,每一步操作都有审核,都有容错,都有记录。这样就可以大大降低人为事故了。

© 著作权归作者所有

共有 人打赏支持
下一篇: rsyslog安装配置
木雨山

木雨山

粉丝 42
博文 85
码字总数 101060
作品 0
朝阳
技术主管
私信 提问
加载中

评论(1)

chuckpu
chuckpu
学习了
CPR式的IT运维管理,我们不要!

什么是CPR式的IT运维管理?CPR(Cardiopulmonary Resuscitation),是医学术语“心肺复苏”的简称,是指心搏骤停一旦发生,就必须立即在现场进行心肺复苏CPR,以挽救患者的生命。 想想我们的...

勤智运维
2017/09/22
0
0
超级经验,宏观把握IT运维管理解决方案精髓

超级经验,宏观把握IT运维管理解决方案精髓 IT 运维管理是时下 IT 界最热门的话题之一。随着 IT 建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部...

畅享择天0
2016/09/27
54
0
智能变革:一纸报告洞察企业IT运维管理市场发展先机

近日,艾瑞咨询发布了《2018年中国企业IT运维管理市场报告》,对2018年中国企业IT运维管理市场的发展背景、现状和趋势做了详细解读。 报告分为五个板块,从企业IT运维管理的产业链和发展背景...

艾瑞咨询
2018/04/16
0
0
「客户成功故事」OneAPM 助力网上办事大厅构建阳光、高效、安全的政务服务平台

(一) 项目背景: 网上办事大厅是由省信息中心承建的电子政务核心业务系统,致力于为全省民众提供一站式网上办事服务,实现了政务信息网上公开、法人及个人事项网上办理、公共决策网上互动、政...

OneAPM官方技术博客
2018/08/09
0
0
2015第六届IT运维大会上惊艳的一体化管理软件

2015第六届IT运维大会上惊艳的一体化管理软件 我们在说一体化管理前,先来关注一下我们IT运维行业的盛事,刚过去不久的2015(第六届)中国IT运维大会于11.12日在北京落下帷幕,SITEVIEW ITOS...

畅享择天
2015/12/26
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

腾讯面试:一条SQL语句执行得很慢的原因有哪些?

说实话,这个问题可以涉及到 MySQL 的很多核心知识,可以扯出一大堆,就像要考你计算机网络的知识时,问你“输入URL回车之后,究竟发生了什么”一样,看看你能说出多少了。 之前腾讯面试的实...

java菜分享
22分钟前
4
0
Java 基本功 之 CAS

本文首发于个人公众号《andyqian》, 期待你的关注! 前言 在Java并发编程中,我们经常使用锁对竞争资源予以并发控制,以解决资源竞争的问题。但无论是使用 Lock 还是 Synchronized,随着锁机...

andyqian
25分钟前
3
0
信号量与条件变量的区别

注意信号量与条件变量的区别 信号量内容可见:http://www.cnblogs.com/charlesblc/p/6142868.html 信号量、共享内存,以及消息队列等System V IPC三剑客主要关注进程间通信; 而条件变量、互...

shzwork
36分钟前
0
0
在VirtualBox 6.0中安装fedora 30

操作系统安装完毕后首先进行更新。 sudo dnf update 重启虚拟机后,安装VirtualBox依赖的软件包。 sudo dnf install kernel-headers kernel-devel dkms gcc 最后,安装“增强功能”。...

gugudu
45分钟前
0
0
861. Score After Flipping Matrix

为了获得最大值,我们必须保证每一行列下标小的1尽可能的多(最高位的1尽可能多)。 首先,考虑我们可以进行的操作有 翻转列,进行列操作 翻转行,进行行操作 通过行操作 我们总是可以使得第...

reter
45分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部