随着信息技术与银行业务的深度融合,信息系统安全稳定运行牵动着每个人的神经。金融需求越旺盛、银行业务发展越快,数据中心运行异常的损失和后果就越严重。近年来,各银行对数据中心投入巨大,从人力、资源和技术储备上向科技倾斜,然而,数据中心的稳定性始终难以令人放心,业内重大安全事故屡次发生。在当前金融需求极度旺盛,云计算、大数据等新兴技术不断涌现的新形势下,保障数据中心安全生产运行,已不只是科技部门内部的技术问题,而应该从全行战略层面审视,建立从战略到战术,再到执行层面上的一体化管理体系,夯实运维基础,实现安全生产长治久安。
一、面临的问题和挑战
国内大型商业银行的信息系统每天承载的交易量超2亿笔,峰值近2.7亿笔,电子银行交易占比近80%,并高速攀升,系统稳定运行的压力巨大,数据中心生产运行面临多重典型问题和挑战。
1.典型问题
一是架构复杂。当前国内大型商业银行基本上都实现了全国数据大集中,在信息系统架构上实现了“全国一网、一网打尽”。信息系统的软硬件环境涉及的技术平台复杂,厂商众多,系统的I/O瓶颈难以消除,扩展性差。由于缺少跨越多平台的集成解决方案,数据中心安全生产运行在技术层面受到制约。
二是整体性能难以保障。除了核心系统部署在主机平台外,还有几百个外围系统部署在开放平台环境,基础软件平台和数据库系统的多样性客观存在。异构的数据库、Java层、消息层和Web层很难整体调优。特别是近年来虚拟化技术的广泛应用,在虚拟环境下,整体性能不高且不可预测。
三是整体可用性难以保障。就像神话中的“阿喀琉斯之踵”,虽然生产系统在设计之初即考虑了各个环节的架构冗余,但是由于异构环境存在,单点风险依然不能根除。基础环境、系统、网络、应用等任何一个环节的不稳定,最终都可能对整体可用性造成影响。
四是运维管理复杂。数据中心安全生产水平,依赖于开发、测试、运行以及业务、风险管理、支持保障等多个部门的整体表现。在实际运维工作中,运维职能难以清晰界定,信息系统问题的诊断、解决过程复杂,不同厂商产品升级与补丁流程不同,客观上增加了运维管理的难度。
2.面临的挑战
IT运行的基本目标是稳定和安全,核心目的是为业务服务。在银行业务蓬勃发展的新时代,银行的数据中心迎来多重挑战。
一是自身运维保障水平的挑战。系统异构现状下,业务连续性和高可用性建设是数据中心的运维保障重点。潜在运行问题分析和规避能力、问题快速定位和解决能力等,都是对数据中心运维保障水平的极大考验。
二是来自业务的挑战。银行业务竞争日益激烈,客户对银行服务中断和性能问题容忍度较低:业务需求已由单纯的“IT实现和支撑”,转变为“灵活支持业务发展”,“平稳应对业务量持续及爆发式增长”,“用户体验透明、可掌控”等全方位需求。新形势下,如何实现业务需求与IT管理量化对接,是对数据中心的严峻挑战。
三是IT基础架构和基础设施的调整。数据中心建设耗费巨大,且设施空间难以扩展。数据中心基础架构复杂度不断增长,服务器数量急剧增加,机房能耗快速攀升,对数据中心机房空间优化和基础设施容量扩展能力,带来了巨大挑战。
四是IT变革和创新的挑战。近年来,IT变更和创新持续推进,虚拟化、云计算、大数据等新技术不断涌现,集中化、标准化、绿色环保、智能数据中心概念相继提出,既是数据中心前进的方向,也是严峻挑战。
二、基于一体化运行的运维管理实践策略建议
商业银行业务目标是提供愉悦的客户体验,包含服务、产品、流程和IT自身。农业银行数据中心在全行“科技先行”发展战略的指引下,始终坚持以服务业务发展为宗旨,以安全生产为第一要务,按照一体化生产运行的思路,全面推行运行精细化管理,提升安全生产水平。基于农业银行多年实践经验,参照业界经验,建议如下。
1.机构设置
商业银行信息科技工作包含科技规划、开发、测试、运行等环节,各环节环环相扣,相互促进又相互制约。目前,业界通行的做法是“一部两中心”的管理架构和“两地三中心”的灾备架构。农业银行做法和业界通行做法类似。
(1)“一部两中心”的管理架构
IT条线内按照统筹规划、软件开发、生产运行职能设立相互独立的专业部门,形成分工合理、职责明确、相互制衡、报告关系清晰的组织结构。统筹规划部门主要负责中长期科技发展战略规划;制订科技项目建设计划和资源配置计划;构建信息科技制度体系;统筹协调科技条线内各部门工作;指挥重大项目投产和突发事件处置;承担安全管理与质量管控。软件开发部门主要负责全行信息系统应用软件的研发,同时承担应用系统运维的二线支持工作。生产运行部门主要承担全行信息系统安全生产运行职能,实施日常信息系统运行维护和管理,对全行日常生产、应急和灾备实施一体化管理。
(2)“两地三中心”的灾备架构
为满足“重要业务恢复时间目标(RTO)不得大于4小时,重要业务恢复点目标(RP0)不得大于半小时”的监管要求,总行确立“两地三中心”的灾备模式,即数据中心、同城灾备中心和异地灾备中心(如图1所示)。对于数据中心园区级的灾难事件,采用同城灾备解决方案,实现60分钟内灾备恢复。目前,农业银行同城灾备中心正在建设中,预计2016年投入使用。针对发生概率低、故障影响范围大的区域性灾难事件,采用异地灾备解决方案,实现2小时内灾备恢复。
2.制度规范建设
生产运行工作具有繁琐、重复、技术性强的典型特征,牵涉面广,风险度高。对技术工作和技术人员的管控仅靠“行政式管理”往往事倍功半,顾此失彼。正所谓“三分技术、七分管理”。只有建立起一套权责清晰、分工明确、规制适度、流程顺畅的制度规范,才能把管理者从繁琐的运维事项中解放出来,也使各级技术人员明确工作定位和行动方向,有章可循,有据可依。根据管理的层级和颗粒度的不同,运行管理规范分为制度、流程和操作规范三部分(如图2所示)。
(1)制度体系
在建立运行制度体系时,宜遵从整体规划、急用先行的原则,首先建立统一的安全生产管理办法,作为纲领性制度,明确安全生产相关各方的职责分工。以此为基础,逐步构建全行生产运行制度框架体系,全面覆盖日常运行、应急管理和灾备管理,优先制定日常值班、事件、问题、变更、应急、供应商等管理制度,还应建立基础环境、生产网络、系统维护、运行操作、数据安全、生产调度等各专业领域实施细则,形成比较完善的生产运行规章制度体系。
(2)流程标准
业界成熟的经验是参照ITIL的思路,引进ISO20000等IT服务管理国际标准,实现了人员、流程和技术的统一管理。多家银行借鉴IS020000标准体系方法,构建运维管理流程,从单纯技术运维,向注重为业务经营管理高效服务转变,从而建立起主动的、以预防为主的生产运行管理体系,全面提升风险防控水平。值得注意的是,银行在引进IS020000等国际标准时,切忌简单地“拿来”套用,必须结合本行实际,因地制宜,避免“水土不服”。分行条件不成熟时,也可先引进核心流程。通过标准流程建设,实现日常每项工作有流程、留痕迹、可审计,生产运行工作真正由经验型逐步向制度化、规范化、标准化转变。
(3)操作规范
针对日常运维的各项操作,应研究其科学、高效、安全合理的操作步骤和方法,并固化成册。农业银行的运维操作规范分两个层面构建,总行层面的操作规范覆盖主机、开放、网络、应用、环境、作业专业,包含所有日常运维例行操作项。分行层面的操作规范由总行统一编制,各行运维操作标准统一、规范一致。操作规范的建立,能够有效防控运维操作风险,减少操作失误,也为员工培训积累了第一手宝贵技术资料。
3.应急管理
随着近年来银行数据集中和系统整合,运行风险高度集中,信息系统运行异常极易造或区域性或全国性的影响。为有效应对信息系统突发事件,应贯彻“优先恢复系统对外服务”的理念,构建以“快速响应、快速定位、快速处置”为核心的“三快”应急体系。
(1)快速响应
当发生问题后,所有技术支持人员,包括第三方技术人员必须在第一时间快速响应,在最短的时间内,以最快的速度到达规定岗位,不得延误。保障快速响应的关键是建立反应灵敏、执行力强的应急组织,主要机制包括:监测预警机制、突发事件分级分类标准、应急响应规范、突发事件处置与报告流程等。
(2)快速定位
对发生的异常应在最短时间内分析判断出问题的具体位置、引发原因、影响范围、危害程度等。减少误判,避免在情况不明、原因分析不透的情况下,草率定位,引发更为严重的人为失误。保障快速定位的关键是提高技术人员的技能水平,主要机制有标准流程体系建设,知识储备机制(案例库、知识库建设),重大事件分析机制,配置库建设,技术平台体系建设等。
(3)快速处置
按照“优先恢复业务服务”的理念,运维人员在最短时间内协同各方,综合方案,果断处置,将风险和影响降至最低程度。保障快速处置的关键是决策及时、清晰,处置操作高效、准确,主要机制有:专家决策机制、应急场景库和应急预案建设、定期应急演练机制等。
“三快”应急体系的建立需要管理、技术和资源三者高效融合,从组织体系、制度规范、知识管理、支持保障和技术平台多方面发力,预防为主,平战结合,提升安全生产应急管理水平。“三快”应急体系框架示意如图3所示。
4.日常维护
信息系统的日常维护工作点多、面广、重复度高,任何一个细小的维护和操作事项,都潜藏着巨大风险。围绕7×24小时不间断运行的保障目标,做好日常维护工作,既要统筹安排,加强计划,合理控制维护的节奏和频率;又要突出重点,谨慎操作,严控变更和操作风险。
一是加强计划统筹。总行制定全行统一的例行维护时间窗口和投产变更窗口,所有例行维护和重要变更都纳入窗口内实施。每年年初制订维护计划,各专业严格按计划实施维护。维护期间,增加技术保障力量,重点保障。
二是严控投产、变更风险。抓住新产品投产和生产变更这个最易引发运行事件的风险因素,建立一套业务、开发、测试、运行多部门参与、覆盖变更全生命周期的管理机制,实行变更分级分类管理和应急保障,规范变更操作管理,避免随意操作、越权操作等不合规操作行为,防范操作风险。
三是突出保障重点。节假日、重要活动、重大维护、交易高峰等特殊时期,都是重要运维保障期。运行部门应安排专人分析估算各系统运行趋势,提前安排骨干值班、健康检查、监控巡检等工作,确保重点时段、重要业务得到重点保障。
四是大力推行运维自动化。商业银行IT系统复杂,体量巨大,仅靠有限的人力手工操作,无法满足运维需要。必须引入监控诊断系统及时发现、处置故障隐患;操作维护系统实现自动化的软件发布、作业调度和系统巡检;指挥调度系统记录跟踪事件处理流程和执行结果,提高处置效率。
5.一体化建设
数据上收总行以后,分行的信息科技工作极易被弱化,分行对总中心的工作可能产生依赖思想。实际上,在银行数据大集中的背景下,一旦关键节点出现故障或受到攻击,极可能引发连锁反应,波及全行,造成区域性或全行性异常。因此,数据上收后不能一收了之。不仅要确保总中心的生产安全,更重要的是要保障各分中心、各个节点的安全运行。全行执行统一的运维标准和要求,横向到边,纵向到底,一体化管理。在一体化建设中,既要理顺IT规划、开发、测试和运行部门的工作关系,又要保障总分行贯串一体,集中管理、分级负责。
一是一体化的流程规范。要建立全行统一的运维管理流程和操作规范,明确具体工作的操作流程、方法、步骤和要求,减少歧义,从根本上消除分行运行工作各行其是、各自为政的局面。
二是一体化的调度机制。要建主“运维指令单”机制,统一全行主产运行调度,布置运维保障任务,提示生产运行风险。指令一旦下发,必须强制执行,令行禁止,实现“准军事化”管理。
三是一体化的应急体系。分支机构突发事件第一时间报告总行,总行从全局出发,发挥统筹优势,统一调配人、财、物资源,集全行之力共同处置。
四是一体化的交流平台。要建主全行运维工作交流平台,按期通报生产运行情况,研究解决突出问题,总结全行生产运行管理、工程建设和应急处置经验,供全行参考学习。
五是一体化的质量管控。总行统一组织生产运行质量考核,制订科学的考核标准,准确把握生产运行工作的薄弱环节,督促提高全行生产运行质量。
6.供应商管理
我国金融机构在系统开发、机房建设和运维支持等方面大量采用外包服务,特别是操作系统、生产网络、机房设备等基础环境运维,部分商业银行受人力限制,交由第三方机构负责,供应商管理能力的强弱一定程度上决定了该行信息科技服务水平。供应商管理应做到以下几方面。
一是要慎重选择供应商,对供应商的产品和服务质量、突发事件处置能力进行全面评估,审查供应商服务人员的资质、经验和能力,保持服务人员的相对稳定,建立供应商退出机制。
二是要加强供应商日常管理,不能当甩手掌柜,一包了之,要明确供应商服务的流程、要求,监督、记录服务实施情况,定期核查供应商备品、备件库存状况是否满足生产运行需要。
三是要强化供应商考核,组织供应商回顾、分析产品运行、服务情况,跟踪、督促供应商落实整改,造成业务服务异常或经济损失的事件,必须严厉追究有关供应商责任。
四是要注重引进和培养本行专业人才,供应商由于不了解商业银行应用软件的技术细节,在解决复杂问题时往往会无从入手,本行技术人员应有效发挥沟通和监管作用。
三、几个待探讨的问题
“冰冻三尺非一日之寒。”安全生产并非一蹴而就,必须从细节入手,长期坚持。目前,国内银行数据中心普遍存在成本快速增加、资源管理日益复杂、信息安全、能源危机等问题,打造“高效率、低能耗,高整合、低占空,高可用、低风险”的绿色数据中心,成为业界讨论的热门话题。在实践中,仍然有以下几个关键问题,需要大力研究与破解。
一是“日常”与“应急”。日常运维强调遵规守章,按流程办事,以避免操作风险。应急管理针对突发情况,强调“三快”,必须打破常规,以追求最快恢复。如何实现二者的辩证统一,需要继续摸索。
二是“稳”与“变”。稳定是运维保障的目标。为保障稳定运行,日常运维中又需要大量变更,每一次变更都给生产系统带来一次运行风险。合理平衡“稳”和“变”的关系,严控变更运行风险,是需要大力研究的课题。
三是“IT国产化”问题。目前业界信息系统对国外IT垄断巨头依赖过高,国内技术发展水平又难以满足当前需求,“IT国产化”的目标一时还难以实现。在此背景下,如何从战略和宏观层面,保障国家信息安全,有待研究讨论。
责任编辑:何志斌