4月23日晚八点四十左右接到通知,说是铁通机房NAT29挂死了。简单准备后,我和xx出发前往铁通机房,并最终于九点十分左右赶到机房。
初进机房,就感到温度不对劲,一阵阵的热浪让人无法忍受,细看之下发现是空调坏了。来不及多想,找到出问题的NAT29后,我们发现其eth0端口的指示灯闪烁非常有规律,而eth1端口的指示灯却始终亮着。我们将显示器和键盘接在服务器上,显示器现实的信息很混乱,而键盘插上后却一点反应都没有,无法键入任何字符。在向经理和网管说明情况后,对服务器进行了断电重启。
重新启动后,可以顺利进入系统,并且eth0端口依然规律地闪烁,而eth1端口还是常亮,Ping网关不通。在确定了尾纤两端光值正常后,我和xx插拔了eth1端口和6509上G1/11口的模块,端口还是没起来。我们进行了第二次断电重启,这次较第一次断电的时间增长了一些。开机后,端口起来了,于是打电话给网管确认,网管答复通了,且不丢包。我们打算先观察一短时间,看链路是否稳定。约莫20分钟左右,网管打电话告诉我们丢包严重。于是和网管商量,打算换一台服务器。
我们配置好从公司带过去的服务器,装上后开机,6509/G7/16起来了,可6509/G1/11并没有起来。我们也不清楚什么原因,一番折腾之后,最后请求网管中心远程查看我们的配置,原来是有一个IP配错了端口。更改之后,重启服务器,端口起来了。网管确认不再丢包了,我们继续观察了一段时间,再确认链路稳定恢复后离开了机房。
此次抢修总的持续时间超过了3个小时,算是很失败的。总结原因,我认为有以下几点:一、对设备情况不了解(甚至不知道6509上插的是GBIC模块),准备不充分,在接到抢修任务时仓促准备材料,没有带GBIC模块,虽然最后也没用着,但为抢修工作埋下了隐患。二、对服务器配置命令掌握不熟练,配置过程较浪费时间。另外,在关键时刻手忙脚乱,以至忘了查看端口信息,配错了端口IP,出现了问题之后不能及时发现问题,从而耽误了时间。总而言之,以后要注意培养处理问题的能力,做到处乱不惊,有条不紊的解决问题。