最近有个比较火的英剧叫《IT狂人》,其中比较搞笑的桥段是主角之一每次接到电脑故障问询电话时,首先就会问:你重启过电脑吗?
电脑故障后重启应该是大多数人都经历过的解决办法,但对于IT“大虾”们,一上来就重启,是让他们多么嗤之以鼻的一件事,于是各种敲命令,各种测试,各种排障,各种“专业手段”来进行拯救。
但当你面对的是种类繁多的设备,复杂多变的网络时,不知道“大虾”们还能不能有这样的豪情?事实上,随着IT进程的快速推进,“手工操作”已被各种“工具”远远地甩在身后。
现在,在一个已略有规模的企业里,单纯依靠IT运维管理员的经验或者手工排障,已越来越不可能,即使管理员本身技术很强,耐性足够,可以做到凭一己之力挽救网络系统,但一般情况下,耗时会较长,企业是难以容忍这种现象存在的。所以当前的各种IT运维管理工具,首先把人员从手工操作的低效率、高强度中解放了出来,让他们的精力和能力得以更大程度的释放。
那么IT运维管理从手工走向智能,只带来这一项改变吗?我说,非也。
当越来越多的企业业务,甚至是核心业务需要依赖IT才能运转时,IT运维管理所肩负的责任就不再仅仅是保持系统运转、网络通畅这么简单。我们更需要做到的是对业务的透明化管理,透明化监控业务系统运行情况,事先发现可能引起系统宕机故障或者访问质量无法保障的问题,把可能发生故障的隐患,通过业务系统的整体监控视图发现问题。当然这种“透过现象看本质”的大活,是需要在智能化的运维工具辅助下才可完成的。
还有在很多大型企业里,是要求进行日常巡检的,因为巡检工作不但是网络故障防患于未然的关键,也是进一步释放IT运维管理价值和不断创新的基础。但是这个看似简单的工作,如果单靠手工完成,在规模越大的企业里越容易沦为形式,甚至是无法保证质量的“硬骨头”。因为当一个企业的信息化管理者深陷入繁杂的日常运营维护工作时,有时根本记不住日常到底布置了哪些事情,就算记住了也没在这么庞大的系统面前做到“及时”检查,即使能做到“及时检查”,也很可能会陷入到“如何检查”的困境中去。
依靠管理人员每天按部就班地对每一台设备逐个检查,或者从大量的纸质表单里找数据,长此以往,这种枯燥和疲倦也许还会导致巡检人的敷衍了事和“数据空想”,可能会造成不可估量的损失。所以自动化的运维巡检在这里又帮助运维人员从繁琐手工劳动中“解救”出来。并且智能化的自动巡检需要大量收集系统运行的监控数据,并以此为依据建立一种可持续性的优化目标。首先要利用自动化的收集工具,确定巡检的范围,进而再把整个范围内的运维对象形成逻辑关系。通过对这些监控数据的归集和分析,预先发现故障隐患,提前采取措施,进而变被动式管理为主动式管理,提高IT系统服务管理水平,并引领企业的IT部门进入到BSM的时代。
其实我认为:所谓“智能”的IT运维管理,当然你要能有一个体现“智能”功效的有利工具辅助,但更重要的是你要了解自己所面对的管理对象,了解你的企业,才能选择适合当下的利器,发挥出最大的功效。不然,就像你虽然拿着一款智能机,但根本没有wifi,很多功能也无法使用一样。
会使用工具为自己服务很重要,选择最适合的工具更为重要。如何选择适合自己的工具,做智能化的“IT运维”,