两地三中心容灾备份系统建设及成效论文
随着人民银行省级数据中心建设的不断深入,以及信息化系统整合趋势的不断发展,人民银行省级数据中心所承担的任务也越来越重。目前,人民银行南京分行(以下简称“人行南京分行”共维护136个应用系统,其中近80个系统部署在分行省级数据中心,包括18个总行信息系统、60多个分行自建系统。系统用户涵盖苏、皖两省各级人民银行和众多金融机构;业务涉及货币信贷、国库会计、人事、公文和调查统计等多个部门。如何保护这些信息系统的安全,尤其是重要信息系统的数据安全,已经成为分行科技保障工作的重要内容。
一、信息系统数据安全存在的问题
(一)数据中心存储设备存在单点故障风险
通过近几年的不断建设,人行南京分行数据中心系统服务器和光纤交换机等设备均实现了双机冗余保护,但存储设备仍采用总行2010年下发的一台HDSAMS2500。该型号产品存在以下问题:一是功能单一,无法实现跨阵列快照等功能,如果备份操作发起之前数据丢失,则无法恢复;二是仅有一台存储设备,一旦发生故障,本地及异地均无高可用的数据保护,所有部署在省级数据中心的总分行业务系统均会中断,后果严重。
(二)分行自建信息系统数据缺乏保障
目前,人行南京分行采用VMwarevSphere5.0搭建了虚拟化应用平台,并利用该平台部署了分行自建的60多个应用系统。这些系统通过VMware HA提供统一且经济高效的硬件和系统故障切换保护功能。但除部分系统通过CDP,Symantec NBU,EMC Avamar等实现备份外,其他系统数据并没有额外的备份保障。
(三)系统灾备级别较低
在省级数据中心已备份的系统中,只有人民银行账户管理系统通过总行CDP系统每隔10分钟远程异地备份到总行北京灾备中心。其他系统通过磁带、EMC Avamar等软硬件产品进行每日数据备份。这种方式仅实现了数据备份,灾难恢复时间(RTO)和恢复目标点(RPO)均较长,无法保证重要应用系统的连续性运行。
二、两地三中心容灾备份系统建设
为解决上述问题,人行南京分行拟采用"两地三中心:同城-异地灾备"模式:在南京市建设同城数据灾备中心,实现生产中心重要应用系统数据的实时同步复制和数据访问;在辖内中支建设异地数据备份中心,将生产中心的重要业务数据连续备份到异地灾备中心,减少灾害发生时的数据损失,从而为分行省级数据中心提供有效的数据保障。
(一)同城灾备/异地备份中心选址
人行南京分行在南京市区共有两个机房,一个位于分行机关,另一个位于分行营业管理部,两机房相距2千米,并配有一条千兆光纤通信线路。分行机房作为生产机房,通过总行下发的一台HDSAMS2500构建了SAN存储网络,部署了数据中心绝大部分系统。营管部机房配有一台EMCVNX5150及相应的SAN存储网络,用于其内部虚拟化建设,因此选定营管部机房作为同城数据灾备中心。
分行辖内除营管部外共有12个地市中支,各中支与分行通过带宽8Mmt/s的IP链路通信。与分行距离200千米以上的中支共有6个,其中人民银行苏州市中心支行(以下简称"人行苏州中支”已有一台EMCVNX5150和SAN存储网络,综合地理位置、机房条件、硬件设备等多种因素,决定选择人行苏州中支机房作为异地数据备份中心。
(二)方案选择
人行南京分行主要考察比较了3种较为成熟的灾备方案:IBMSVC异构存储容灾解决方案、HDSGAD解决方案和EMC Vplex Metro & RecoverPoint Crr方案。
1.IBM SVC异构存储容灾解决方案
IBM SVC是一种存储虚拟化解决方案。它可将不同的存储设备映射为SVC的内部存储单元MDISK(Managed Disk),—个或多个Mdisk被虚拟化为一个存储池,进而提供存储服务。
SVC异构存储容灾方案就是先通过SVC实现异构存储的整合,然后通过"Vdisk Mirror + Metro Mirror"功能进行本地存储高可用和数据容灾同步复制。其中Metro Mirror可支持300千米以内的两个机房之间的数据同步复制,因此可满足同城灾备中心和异地备份中心的距离和数据容灾要求。但该方案要求灾备/备份中心与生产中心之间都需直接通过光纤网络进行数据传输,现有网络条件无法满足;且需在生产中心再配置一台本地存储,总投资较大。
2.HDSGAD解决方案
HDSGAD(Global-Active Device)方案是一种基于存储的高可用方案。GAD是由两台高端存储G1000组成,当两台存储的距离在100千米之内时,用户数据可以在两台存储中实现实时同步复制,并提供对外数据访问服务。用户主机可以访问任意一台存储数据,如果一台存储设备出现故障,可以保证业务不中断地访问另一台存储设备(如图1所示)。该方案可以实现"双活"数据访问,但在距离上无法满足异地备份中心的要求,且需要购买G1000存储设备,投资较大。
3.EMC Vplex Metro & Recover Point Crr方案
EMC Vplex Metro是一种存储虚拟化解决方案,它通过光纤通道将不同品牌不同数据中心的(距离小于10千米)存储设备虚拟化为统一的存储资源池。通过同步(时延小于5毫秒)镜像复制功能,保持两数据中心存储数据的高可用(如图2所示)。同时,通过“Active-Active”技术,可以实现与HDSGAD方案类似的双活数据访问。因此EMC Vplex Metro可以在不增加其他设备的情况下,满足分行-营管部同城数据灾备要求。
EMC RecoverPoint Crr(Continuous Remote Replication)即连续远程数据复制,它可通过光纤通道或WAN为距离大于100千米的数据中心提供双向数据块的复制(如图3所示),因此满足人行南京分行-人行苏州中支的异地数据备份要求。
对比3种方案,只有EMC Vplex Metro & RecoverPoint Cn方案可以充分利用分行现有的存储、网络资源,实现两地三中心灾备系统建设目标,且资金投入少。人行南京分行最终确定采用该方案。
(三)同城数据灾备中心建设
通过EMC Vplex Metro虚拟存储技术,人行南京分行将生产中心的HDSAMS2500和灾备中心的EMCVNX5150两台异构存储各划出2T空间映射为一个单—的2T容量的存储资源池(Storage Pool),利用虚拟存储的分布式镜像功能,进行数据的远程同步复制。即生产中心应用系统数据通过Vplex拆分后,同时写入本地和同城灾备中心的存储设备中,保证了两中心的数据同步。再通过VMware的在线迁移(VMotion)功育能将分行虚拟化平台上的重要系统不停机地迁移到该存储池中。这样一旦生产中心存储发生故障,在该存储池中的系统可以立即访问同城灾备中心对应存储设备上的数据,保证数据的连续性访问。同城数据灾备架构如图4所示。
(四)异地数据备份中心建设
人行南京分行在生产中心的HDSAMS2500和人行苏州中支异地数据备份中心的EMCVNX5150上各划出10T空间,作为远程数据备份一致性组,采用EMC RecoverPoint Crr,通过IP链路进行数据复制,实现连续远程异地备份。即当生产中心进行写操作时,应用系统数据通过Vplex引擎拆分成相同的两份,一份写入本地存储,另一份传至本地RPA,经过压缩后按照预定的复制策略,每隔几分钟通过IP链路传送到苏州异地备份中心的RPA,形成日志后再写入异地备份中心的存储中,保持与生产中心的数据一致性(如图7所示)。同样,仍通过VMware VMotion功能将分行虚拟化平台上的部分数据重要性较高的系统迁移到该一致性组中。
经多次测试,在现有网络带宽条件下(最大带宽8Mbit/s),数据首次复制时间较长,但首次复制完成后即可按照既定策略,每隔15分钟左右生成数据快照(如图8和图9所示)。当生产中心数据遭受损害时,备份中心可提供任意快照时间点的数据备份进行数据恢复。
三、取得成效
(—)提高了重要自建系统的可用性,实现了系统的数据双活
同城数据灾备中心建成后,实现了数据跨站点共享和无中断迁移。测试表明,一旦生产中心目前唯一的HDSAMS2500发生故障,通过Vplex的Active-Active技术,生产中心虚拟化平台上部署在存储资源池中的应用系统可以快速自动切换至同城灾备中心的存储上,使系统做到无中断数据访问,消除了以往故障处理所需的存储操作,解决了存储的单点故障风险,从而保证重要自建业务系统的.连续运行,提高系统可用性,实现应用系统的数据双活。同时,两中心之间的数据复制可根据应用系统的重要性级别,选择同步/异步方式,以便最有效地利用网络带宽资源。
(二)优化了现有系统灾备结构,提供分层次的灾备服务
同城数据灾备中心和异地数据备份中心建成后,对人行南京分行省级数据中心现有的系统灾备结构进行了优化。数据中心可根据应用系统的重要性提供不同级别的灾备服务。
第一种情况,对数据安全性和业务连续性要求高,业务中断将造成重大损失的系统,可通过EMC Vplex实时备份到同城灾备中心。当生产中心发生存储故障时,可做到快速切换,获得RPO?0,RTO?0的最优保障。
第二种情况,对业务连续性要求不高,但数据丢失将造成重大损失的系统,可通过Recover Point连续备份到苏州异地备份中心。当生产中心遭遇灾害时,可提供RTO<15分钟的次优备份服务,大大减少了重要数据的损失。
第三种情况,对普通业务系统,可通过EMC Avamar系统、磁带设备等,提供RTO=24小时的普通备份服务。
(三)充分利用现有资源,提高了省级数据中心对各类灾害事件的应急能力
此次容灾备份系统建设由于采用了虚拟存储技术,生产中心和灾备中心的存储阵列可支持不同品牌和不同型号的异构产品,因此生产中心仍采用原有的HDSAMS2500存储设备,不仅节约了灾备成本,也使项目实施过程更加简单,未对现有系统运行造成影响。
同时,同城数据灾备中心和异地数据备份中心建成后,延长了容灾距离,提高了重要数据和应用的保护级别。使人行南京分行省级数据中心不仅能应对本地存储设备故障,而且在面对洪水、火灾、地震等重大区域性的灾难时,也有了可靠的数据保障,提高了应急能力。
四、下一步工作
此次项目建设完成后,人行南京分行下一步计划开展数据中心灾备与恢复的模拟测试演练。一是在同城灾备中心搭建虚拟化应用平台,部署生产中心的重要业务系统,模拟在“生产中心突遇重大灾害,服务器、存储的硬件设备均被损毁”的情况下,进行系统的快速同城灾备切换。
二是模拟在"生产中心与同城灾备中心都出现意外而无法正常运行"的情况下开展应急演练。通过这些测试与演练,进一步提升人行南京分行省级数据中心的灾备水平,为省级数据中心系统提供更加全面可靠的保护。
【两地三中心容灾备份系统建设及成效论文】相关文章:
容灾备份的等级 -电脑资料01-01
列车调度指挥中心容灾系统的设计与分析07-15
列车调度指挥中心容灾系统的设计与分析07-15