如果不求助合理科学的IT手段,要保证像中化集团这类跨国巨型企业的信息系统安全无疑是一种“大兵团作战”了。
让中化集团技术部赵宇翔工程师记忆犹新的是,2005年上半年的一天,技术部突然接到江西九江分公司打来的电话,该分公司突然不明原因断网,请求集团技术支持。由于造成断网的原因很多,在没有系统监控的状态下,只能挨个关键点排查,从北京的交换机,到网络运营商,再到九江的交换机等,最后才发现原来是当地某施工单位不慎把电缆挖断造成。
作为财富全球500强企业和中国重要国有骨干企业,中化集团业务包括石油、化工、化肥、金融以及房地产等多元化业务,下属超过100家的各种大小型公司,在海外还有四大集团。在这样庞大的集团里,遍布全球的信息系统可能处处隐藏着一些盲点,随时都有可能成为企业的隐性漏洞,发生一些意外,如果发生大的意外,将可能造成无法挽回的损失。而企业的属性又决定了业务不允许被中断,并希望故障时间越短越好,越能提前预防越好。因此,如何在业务人员发现问题之前,对系统实施即时监控并预先对事故进行处理和解决,控制风险,并治理好IT,是中化集团技术部当前最迫切需要解决的问题。
中化的隐患
中化集团早期已经建立起了一套完备的承担全球各个公司业务的信息系统,其中以ERP系统为核心,包括内部办公自动化系统、分销管理系统、内部门户等系统在内的企业信息化平台,可以进行有效的业务管理和流程控制。但是要监控这些系统对信息技术部来说是一个极大的挑战。
一旦发生技术故障,作为中化集团信息技术部经理,苏京宁以前总是要等事故发生后才从业务人员的反馈中得到信息,而且要牵动大量人员进行电话逐一排查,不仅占据了苏京宁的信息部门大量的工作时间,也给中化集团所有相关部门造成了很大的被动,就像救火队员,火势最终是可以扑灭的,但是其带来的损失却难以估量。客观环境要求苏京宁以前总是要守在电话旁边,寸步也不能离,因为不知道什么时候业务人员或者财务人员就会打来电话,而不管是业务人员下单发生问题,还是财务部报表生成不了,或者出现更严重的账目问题,都有可能造成全集团的重大损失。
2005年3月,中化集团信息技术部总经理在取得COBIT(国际公认的IT治理理念)资格认证后,大胆地提出了一个设想,按照传统的方法,与其盲目地选产品,询问价格,被解决方案提供方牵着鼻子走,不如按照科学的方法来帮助中化信息技术部做决策。
COBIT的科学性体现在以业务为中心,结合IT服务管理的理念,它把IT目标总共定义为24个流程,中化集团信息技术部对照自身企业需要达到的效果,从中确定了此次项目的目标,即实现其中4个流程的管理,分别是确保连续性服务、管理服务台和事件、管理性能与容量、管理数据。在整个分析和准备的过程中,每一份调研文档,每一次会议记录,每一个工作流程都严格按照COBIT的方法备案或执行。经过中化与IBM双方的共同诊治,将以上4个流程的管理转化成了中化集团在IT系统管理方面最重要和紧迫的具体需求,其一是支持业务连续性的基本容灾能力,其二是应对日益复杂IT环境的基本治理能力,其中包括可靠的数据备份与恢复能力;初步的网络、系统和存储监控能力;初步的企业级IT综合监控台。归根结底是要保障中化全球各个公司网络系统基础设施无障碍运行。2005年9月,双方决定“以IT治理理念”做为此次项目的指导标准,以业务为中心,结合IT服务管理的理念,而以IBM Tivoli为具体的解决方案。
IT治理以业务为核心
中化集团这么多错综复杂的系统,要监控这些系统不间断,或者出现问题在第一时间要解决,就必须要借助一个平台,把这种杂乱无章的信息变成有序的信息。2005年9月Tivoli项目实施小组成立,中化集团信息技术部总经理任项目总监,经理任项目组长,另有4名技术成员,IBM方面由一人牵头,先后有10名左右技术人员参与。
IBM Tivoli解决方案主要包含四大核心功能模块:Netview侧重网络管理;ITM(IBM Tivoli监控)集中在资源监控;TSM(Tivoli存储管理)在于存储管理;而TEC(Tivoli企业控制)目标为事件管理。其中Netview与ITM主要通过对网络和系统的随时监控,来提高诊断和解决问题的能力,然后所有事件处理再转到TEC作出响应,而TSM主要用于灾难备份。
项目实施阶段,Tivoli项目小组先兵分两路,一部分负责搭建Netview,另一部分负责开发TSM。接下来项目组实现了ITM(资源监控)。但是在实施的时候,问题很快又出现了。
集团信息技术部的赵宇翔工程师发现,在做Netview(网络管理系统)的网络布局(技术上称为拓扑展现)图时,起初技术人员设计出来的逻辑图,看不出各个部门之间的业务关系,因而只有关心各个设备状态的技术员能看得懂,而与此有紧密联系的相关业务人员却如看天书。中化集团的Netview是一张涵括全球各地分支机构的网络系统管理图,技术人员设计时只考虑到自己部门的需求,因此只画出了系统的后台图,而业务需要的前台应用支撑却没有。在深入业务调查之后,赵宇翔他们终于想到一个办法,就是按照网络元素分层,把已有的连接各地子公司的技术拓扑图转变成一张体现了业务关联的中国地图,技术业务人员就可以按图索骥在前台登陆直接找到目标出现异常的业务流程。这样一来结构就非常清晰了,也符合真正的业务模型,体现了技术人员对业务关注度的提高。
如果按照以往项目实施的方法,即根据中化的特点,把业务模型分块作为IT服务的目标,往往就会面临一个问题,IT人员是技术人员,以技术为中心设置起来的项目,就会出现某些功能不适合业务,如何解决这个瓶颈?虽然说这两者之间永远有差异,但有合适的方法就能把差异最小化。
在以业务支持为核心的基础上,中化集团很快找到实施方法。以此方法,他们首先把Internet出口集中,所有分公司通过电信运营商的专线与集团相连,统一网络架构。其次,从管理上,把所有分公司的网络设备都纳入集团管理,便于集团统一部署。基于上述两点,在实施IT治理项目时,不论是新加坡还是九江,只要将其网络设备(路由器、交换机)的SNMP(简单网络管理协议)打开,Netview会自动发现其下面的所有主机和客户端。
Netview模块的实施非常成功,依据同样的方****,其他三个功能模块不久都也开始投入应用。这时,所有网络设备、系统主机,以及TSM的事件告警都传到TEC被响应,并与中化邮件系统集成,自动向相关人员发出告警邮件。
两个人监管全球
2006年5月16日,中化和新加坡合资公司的张涛之前没有取得权限,但是想在新加坡公司同步登录中化的邮件系统,于是他向中化国际的人员要了VPN(专用网)帐号,可等他登录系统之后,北京集团监控图上却瞬间出现了一个红点,赵宇翔发现了这一异常情况,随即屏幕右侧找到了发生异常的具体地点,迅速将视线锁定在新加坡的公司,并确认了异常信息的性质。因为该公司具有独立的Internet出口,张涛登陆后在中化集团出现了一个新的登陆端口地址,所以系统即认为是异常。
在这次事件的整个监控过程当中,系统开始具备了完整地处理突发事件的跟踪流程,即感知、隔离、诊断、采取行动、评估。系统监测到异常情况即马上自动转入处理状态,协助工程师正确判断和处理。这样赵宇翔即使是周末休息,也可以通过收取报警邮件,在家里直接登陆中化VPN进行故障处理。而如果没有这个流程,信息系统还是一盘散沙,赵宇翔也完全不知道它是否受到攻击,是否出现异常。
“以前系统没有统一管理,比如九江断网这样的异常情况基本上不可能被发现的,一旦问题不能及时发现,就很有可能变成一个网络漏洞,进一步甚至会遇到黑客攻击等未知的事件”,赵宇翔工程师详细讲解道,“而现在我们第一时间就发现了哪里会出现异常的红点,再不用像救火队员那样,出现问题才赶赴现场了。”
IBM的Tivoli专业服务人员与中化的实施人员经过通力合作,系统早已经成功运行,通过企业级IT综合监控台,中化集团可全面掌控整个系统的运行状况,并通过电子邮件和手机短信等多种手段进行通知和报警,据最新消息,手机短信报警的功能日前已通过测试,预计在2006年7月投入使用。目前中化集团全球各公司基础设施和操作信息的日常监控管理仅需2人完成,而一旦出现技术故障,信息系统能够在20小时到几天范围内全球恢复运行。
对于现在的工作状态,赵工程师不无感叹,“以前,每天一个交换机与一个交换机地检查,如同机器的奴隶,而现在通过对信息系统的管理,中化技术人员的工作重点已变成了对企业信息技术的利用进行规划、设计和再实施。这是我们第一次按照IT治理的理念进行项目实施,虽然有时还难免从技术上考虑问题,但经过无数次的纠偏,最后终于走通了这条路。”