俗话说,运维工程师三件宝,重启,重装,换电脑。这三件百试不爽的法宝有时候也手背不灵光的时候,那个时候呀真是欲哭无泪。以下分别谈一谈我或我身份同事发生的事。这三件事有的并不是直接发生在我身份的,但确实我亲眼所见或同事亲述,但是为了保护同事的隐私,以下全部用第一人称讲述,有人不甘不挤兑胖胖不爽的人会说,胖胖,别瞎扯,不就是你自己亲身经历的事嘛,还嫁祸到别人头上,那好吧,就算是我亲身经历的好了。
一、囧事之重启篇
某生产系统进行硬件扩容,要将32GB的物理内存扩展到64GB,因为是生产环境,LINUX系统所以停机时间不能太长。虽然内存支持热插拔,但是经过和同事一致讨论,领导的拍板,热插拔不靠谱,停机安装。扩容过程本来是无比简单的。首先去机房找到该台服务器,然后确认,对方远程关闭计算机(实际控制使用这台计算机的权限在其它部分同事手中)然后将计算机下架,打开机箱盖,由厂商负责插入新内存,开机启动 ,观察BIOS信息内存情况,OK完成。简单的吧,与其说是关机,就不如算一个略长时间的重启。结果人手背的时候,没法说呀。因为是远程关闭计算机,到达现场后我立刻找到了该台计算机,并确认(其实扩容是二台)然后电话远程关闭计算机。然后将计算机下架,扩展内存,开机检查BIOS信息,第一台正常,OK。关机上架。然后如法炮制第二台,检查内存信息,OK,本以为打完收工。然后上架,开机,结果悲催的事情就发生了。因为这台机器是LINUX系统,已经N年没重启了,所以这次关机后开机,竟然无法正常引导操作系统了,一个劲的报错,提示文件系统损坏。当时汗马上就下来了。马上进入单引导模式,开始尝试手动修复文件系统。结果就是人背喝凉水都塞牙。文件系统修复失败。糟糕的是,因为是个很简单的操作,远程的同事不知道情况,一个劲的催完成没有,所以就是越催越急,一时也没有了头绪。离预计时间已经超过20分钟了,还没有个头绪,当时脸都绿了。还有公司的一个更有经验的同事电话联系问情况,没办法实话实说吧。因为无法引导系统,只能手机拍照,然后存到自己随身携带的笔记本上,然后把图发给同事分析判断,指导操作。好在老天不饿死瞎家雀,最后在超过预计2小时10分的时候,终于将系统成功引导了。当年挨批是免不了的了。事后经过大家的事故分析,问题出在因为这台机器常年没有关机,系统在关机的时候比较慢,数据由内存写入硬盘的时间超过了自己的预期。因为第一台成功完成后得意忘形,没有连接本地显示器查看关机情况,系统并没有造成正常的关机,在数据从内存写入硬盘的时候非法关机了,最后造成文件系统挂掉了。
这个事件告诉我们,很多时候沟通是关键,另外做事的要做到事无巨细,关键是头脑要清醒,有条理,不要做蠢事。
二、囧事之重装篇
说完了重启的囧事后,我现在来讲讲重装的故事。重装系统可能是很多运维人员经常要面临的工作。有人认为这项工作没有意义,很简单。话说丁胖胖工作这些年也不知道重做了多少系统。轻松的时候多,麻烦的时候也有。当然我就拿出一篇比较囧的事来说。话说某台PC SERVER系统挂掉了。所以我们的工作就是给这台机器重装系统。那好像是2012年的第一场雪,比以往的时候来的稍晚了一些。那天是周末,所以周末加班是件很不爽的事。不知道我那次脑袋被门挤了还是进了一些水。我没有使用强大的U盘安装,而是选择了使用光盘安装。安装的头天快下班的时候,一个同事提醒我,最好多带几张系统盘,免的光驱挑盘或者刚巧光盘读不出来。所以我自作聪明的带了4张光盘。结果悲催就悲催在这4张光盘上。插入第一张光盘,光盘没有被引导。奶奶的,巧了。换第二张,光盘还是没有被引导,真巧。换第三张光盘,光盘仍然没有被引导,太巧了。换第四张光盘,光盘习惯性的没有被引导,真是化腐朽为神奇了。和我同去的同事都被惊呆了。怎么了?回公司再拿一张,那么上午这半天就过去了。问IDC机房的同行要一张,真巧周末没人,就一个值班的,人家手头也恰巧没有同版本的系统光盘。当然在我们走投无路的时候,我的同事大神从包里翻出一张混杂着他汗水、汗水还是汗水估计放了有半年以上得系统光盘,放入光驱。神了,显示器终于出现了友好的安装向导界面。
事后细想了一下,可能是当时四张光盘使用了同一个移动刻录光驱,估计是刻录光驱有问题造成的。这件事也教育了我,平时检查一下,哪怕是一个很不起眼的细节,也是很重要的。
三、囧事之换机篇
话说某日,和我们有合作项目的甲方要来我公司观察某项目系统的演示。公司的一个同事负责具体工作。在此之前,我已经安装要求将一台显示的笔记本安装了LINUX系统。因为演示程序需要在该系统中演示。但是临甲方来临的前20分钟,这个同事找到我,要求在另一台台式机上安装LINUX。理由是那台笔记本性能太差,怕出现意外。因为那个台式机原装有WINDOWS系统,他给我的时间是5分钟。我去。就是利用零干预全自动化安装或者GHOST系统安装,也不可能在5分钟之内完成。况且更换系统重装还是重新分区,格式化系统。在我强烈表示无法完成的情况下,对方给我增加了13分钟。并告之我,只要单机可以运行即可,不需要安装网卡驱动。终于,我在12分47秒完成任务的时候,对方急匆匆的跑来告诉我。需要安装网卡,联网操作。于是,借来悲催的一幕终于发生了。原来这个台式机是杂牌网卡,LINUX自带网卡驱动不能安装上去。于是我立刻度娘,谷哥,一顿折腾下来,发现了更悲催的结果,该网卡没有基于LINUX的网卡驱动。我的同事急的是团团转,我更是急的转团团。无奈之下,我的同事硬着头皮拿起那台破本,上了战场。还好完整的归来。
时候这件事教育了我,一定对无法完成的任务说NO。自作聪明的答应无把握之仗必定惨兮兮。另外,凡事要多想几步,别走一步,看一步,会很被动的。