用户系统保存着各种文字、图片、流媒体信息,数据存储量大,种类多,随着数据的不断积累和丰富,拥有一套完整的网络数字化资源已经是最基本必不可少的基础设施,其规模和使用水平已经成为衡量一个现代化管理水平的一个重要依据。而作为越来越重要的数据资源,其安全性将是重中之重。因此,针对超大容量的数字图像信息、视音频信息和标本数据的安全性,迫切需要一套大容量、高性能的存储设备进行集中数据存储,并建立起一套合理的容灾方案,以便于管理、保存、易用的数字化资源存放,实现数据资源的数据保护管理。
根据用户IT建设规划,将在数据集中的基础上,建立容灾备份中心,并在将来形成两地三中心的数据容灾方式。经过与用户领导和技术专家的交流,根据用户的业务需求和系统规划提出容灾系统建议书。
第二章
数据容灾技术方案
2.1 不同容灾技术方案概述
不同企业的不同业务需求和应用特点将可能需要有不同的容灾技术要求,可以采用多种容灾技术来建容灾系统,专业咨询服务部将更许客户的实际需求提供不同的技术方案。对所有客户的容灾技术平台建设而言,容灾方案的技术核心是数据的保护,实现远程数据复制,并能够在灾难发生时在远端利用复制数据提供企业业务运营支撑服务,因此数据复制技术是构建容灾技术平台的核心。不同数据复制技术的分类如下:
如上图所示,对容灾项目而言,比较可行的是采用连续数据复制技术。
根据不同容灾方案所采用数据远程复制技术位于企业IT架构不同层面又可以分为以下三类容灾方案:
一.基于存储层面的容灾方案—利用存储系统的远程数据复制功能建设容灾系统,它包括:
Ø 同类存储平台之间的数据复制;
Ø 异构存储平台之间利用虚拟存储技术实现数据复制。
二. 基于主机层面的容灾方案—利用主机厂家提供的相关功能软件或第三方的主机软件实现远程的数据复制,建设容灾系统。
三. 基于应用层的容灾方案—如利用应用软件如Oracle数据库的本身的远程数据复制技术建设容灾系统
本节将针对以上“基于存储层面数据复制的容灾方案” 、“基于主机层面的容灾方案” 和“基于应用层容灾方案(以Oracle Data Guard为例)”等三类不同方式容灾方案进行分析。
对不同的用户,思达睿智将根据客户的容灾技术方案的实际需要以及技术条件进行评估,为用户最合适的容灾技术方案。
2.2 基于存储数据镜像复制技术建设容灾系统
采用基于存储的容灾方案的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。
基于存储的容灾方案示意图如下:
基于存储数据复制技术的容灾方案示意图
采用基于存储的数据复制技术建设容灾系统是目前金融、电信企业、政府采用较多的容灾方案,有非常多的应用案例,是容灾建设可选择的技术方案之一。
基于存储的复制可以是如上示意图的“一对一”复制方式,也可以是“一对多或多对一”的复制方式,即一个存储的数据复制到多个远程存储或多个存储的数据复制到同一远程存储;而且复制可以是双向的。
基于存储的容灾方案有两种方式:同步方式和异步方式,说明如下:
同步方式,可以做到主/备中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列将利用自身的机制(如EMC的SRDF/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。
异步方式,是在应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如EMC的SRDF/A)将写I/O写入后备磁盘阵列,实现数据保护。
采用同步方式,使得后备磁盘阵列中的数据总是与生产系统数据同步,因此当生产数据中心发生灾难事件时,不会造成数据丢失。为避免对生产系统性能的影响,同步方式通常在近距离范围内(FC连接通常是200KM范围内,实际用户部署多在35KM左右)。
而采用异步方式应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制(可以通过IP连接来实现数据的异步复制)。
采用基于存储数据复制技术建设容灾方案的必要前提是:
Ø 通常必须采用同一厂家的存储平台,通常也必须是同一系列的存储产品,给用户的存储平台选择带来一定的限制。
Ø 采用同步方式可能对生产系统性能产生影响,而且对通信链路要求较高,有距离限制,通常在近距离范围内实现(同城容灾或园区容灾方案)
Ø 采用异步方式与其他种类的异步容灾方案一样,存在数据丢失的风险,通常在远距离通信链路带宽有限的情况下实施。
尽管有以上限制,基于存储的容灾技术方案仍然是当前最优先选择的容灾技术平台,尤其是基于EMC公司的存储系统建设容灾方案有非常广泛的应用,这主要是由于基于存储的容灾技术方案有
如下优点:
Ø 采用基于存储的数据复制独立于主机平台和应用,对各种应用都适用,而且完全不消耗主机的处理资源;
Ø 基于存储得数据复制技术,由于在最底层,实施起来受应用、主机环境等相关技术的影响最小,非常适合于这样主机和业务系统很多、很复杂的环境,采用此种方式可以有效降低实施和管理难度;
Ø 采用同步方式可以完全不丢失数据,在同城容灾或园区内容灾方案中,只要通信链路带宽许可,完全可以采用同步方案,而不会对主数据中心的生产系统性能产生显著影响。采用EMC基于存储的同步复制方式的容灾案例有很多,有非常多的成功经验,很多客户都采用了EMC同步复制技术,并能满足大规模I/O吞吐情况下的同步数据复制要求。而目前同城容灾环境中已经具备上述条件,可以很方便部署同步方式复制;
Ø 采用异步方式虽然存在一定的数据丢失的风险,但没有距离限制,可以实现远距离保护。异地数据中心,则采用与北京两个中心的异步复制方式进行数据保护。
Ø 灾备中心的数据可以得到有效利用。
对于基于应用、基于主机、基于存储的三种容灾方案而言,灾备中心的数据通常不可用,仅为生产系统中的数据提供灾难保护和灾难恢复。但对采用基于存储技术的容灾方案中,有很灵活的技术手段可以充分利用灾备中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下图所示:
基于存储的容灾方案有效利用灾备数据
如上图所示,生产中心的“源数据—R1”通过存储本身的数据复制机制被复制到了灾备中心,即“目标数据R2”。 “目标数据R2”在正常生产情况下是不可访问的,灾备中心的后备主机只能在灾难发生时,主中心服务停止后,才可以访问“目标数据”,接管主中心的服务(基于主机和应用的容灾方案的灾备中心数据与此类似)。但采用基于存储的容灾方案时,我们可以为“目标数据”建立一个BCV卷或快照、克隆,从而可以给到另外的
服务器使用。
利用这种机制,用户可以在容灾中心做很多工作:
Ø 用户开发测试人员可以利用R2-BCV或R2快照得到真实的数据进行新应用开发、测试工作,从而保证新应用的质量,加快新产品上市时间。这种方式在采用基于主机方案和基于应用方案都很难实现,或在获得一份真实数据进行开发测试时需要很长的时间,消耗大量的资源。
Ø 用户的其它应用也可以利用R2-BCV或R2快照满足其它业务的需要。如数据仓库应用通常需要从生产系统抽取数据,一旦进行大规模数据抽取,生产系统几乎处于停顿状态,这时可以利用R2-BCV卷进行数据抽取,从而避免数据抽取给生产系统带来的巨大性能冲击。企业的决策分析系统的数据来源也都可以基于R2-BCV来实现。
由于以上优点,基于存储灾难保护方案是目前采用最多的灾难保护方案。而当前根据***的实际情况我们推荐采用该方案。
2.3 采用虚拟化存储技术建设容灾系统
存储虚拟化的技术方法,是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到屏蔽存储设备的异构和主机的异构的目的。通过虚拟化技术,用户可以利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成对用户来说是单一视图的存储资源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技术,用户可以根据自己的需求对这个大的存储池进行方便的分割、分配,保护了用户的已有投资,减少了总体拥有成本(TCO)。另外也可以根据业务的需要,实现存储池对
服务器的动态而透明的增长与缩减。
通过存储虚拟化技术可实现数据的远程复制,以确保容灾中心与主站点的数据保持同步以实现数据容灾。
存储虚拟化技术可以在不同层面实现,如在智能
交换机层面、存储层面或增加第三方设备来实现。采用虚拟存储技术进行数据复制同样也可以有同步复制方案和异步复制方案,需要根据具体的需求选择合适的产品。
采用虚拟存储化技术建设容灾方案有以下优点:
Ø 主生产中心和容灾中心的存储阵列可以是不同厂家的产品,存储平台选择不受现有存储平台厂商的厂商限制(但目前市场上产品还没有做到这一点);
Ø 对不同厂家的存储阵列提供统一的管理界面;
在虚拟存储环境下,无论后端物理存储是什么设备,
服务器及其应用系统看到的都是其熟悉的存储设备的逻辑镜像。即便物理存储发生变化,这种逻辑镜像也永远不变,系统管理员不必再关心后端存储,只需专注于管理存储空间,所有的存储管理操作,如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等比从前的任何产品都容易,存储管理变得轻松简单。
采用虚拟存储化技术建设容灾方案需要考虑以下问题:
Ø 虚拟存储技术比较新,虽然为异构环境设计,但在异构环境种保证兼容性和数据的完整性依然存在很大风险;
Ø 采用虚拟存储技术,尤其是增加第三方硬件的方式将需要评估对整个系统的高可用性和性能的影响;
Ø 需要验证选择的产品和技术的成熟性以及和现有设备、未来设备的兼容性能力,尤其是难以满足复杂环境、大规模容灾要求的实际适用情况;
Ø 虚拟存储技术目前尚不够成熟,还处于发展阶段,而且对于异构存储环境部署基于虚拟存储技术的容灾方案,目前还无任何案例和应用;
2.4 采用基于主机的数据复制技术建设容灾系统
采用基于主机的容灾方案的示意图如下:
基于主机的容灾方案示意图
采用基于主机系统的容灾方式的核心是利用主、备中心主机系统通过IP网络建立数据传输通道,通过主机数据管理软件实现数据的远程复制,当主数据中心的数据遭到破坏时,可以随时从备份中心恢复应用或从备份中心恢复数据,从而给企业提供了应用系统容灾的能力。
实现远程数据复制的数据管理软件有很多产品,主机厂商和一些第三方软件公司提供基于主机的数据复制方案,如EMC公司的RecoverPoint、Sun公司的Availability Suite软件和Veritas Volume Replicator(VVR)等软件可实现基于主机的远程数据复制,从而构建基于主机的容灾系统。
采用基于主机的数据复制技术建设容灾方案有以下优点:
Ø 基于主机的方案最主要的优点是只对
服务器平台和主机软件有要求,完全不依赖于底层存储平台,生产数据中心和后备数据中心可以采用不同的存储平台;
Ø 既有针对数据库的容灾保护方案,也有针对文件系统的容灾保护方案;
Ø 有很多不同的基于主机的方案,可以满足用户的不同数据保护要求,提供多种不同数据保护模式;
Ø 基于IP网络,没有距离限制;
同时,采用主机的数据复制技术建设容灾方案有以下局限:
Ø 基于主机的方案需要同种主机平台;
Ø 基于主机的数据复制方案由于生产主机既要处理生产请求,又要处理远程数据复制,必须消耗生产主机的计算资源,对于主机的内存、CPU进行升级是非常昂贵的,因而对生产主机性能产生较大的影响,甚至是产生严重影响;
Ø 灾备中心的数据一般不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
Ø 利用主机数据复制软件的方案比较复杂,尤其是和数据库应用结合的时候需要很复杂的机制或多种软件的结合,从而对生产系统的稳定性、可靠性、性能带来显著影响;
Ø 如果有多个系统、多种应用需要灾难保护,采用基于主机的方案将无法有统一的技术方案来实现。
Ø 管理复杂,需要大量的人工干预过程,容易发生错误。
目前,企业采用基于主机的数据复制技术建设容灾方案相对比较少,通常适合单一应用或系统在I/O规模不大的情况下局部使用。在应用I/O负载比较大,需要灾难保护的应用及应用类型比较多、主机环境复杂的时候,基于主机系统的方案并不适用。
2.5 基于应用的数据复制建设容灾系统
基于应用之间的数据复制技术也有很多种,以下按常用的Oracle 9i/10G用自带的Oracle Data Guard技术来进行分析(Microsoft SQL*Server的Mirror技术采用类似方式)。
Oracle Data Guard技术是Oracle数据库系统特有的灾难备份和恢复技术,利用了Oracle数据库系统的日志备份和恢复机制。Data Guard的基本原理是在与主系统完全一致的硬件和操作系统平台上建立后备数据库系统,同时对主数据库的数据库日志(Log)和控制文件等关键文件进行备份。
在主系统正常工作的同时将主系统产生归档日志文件(Archived Log)不断的传送到后备数据库系统,并且利用这些日志文件在后备数据库系统上连续进行恢复(Recover)操作,以保持后备系统与运行系统的一致。当主系统发生故障时,使用备份的数据库日志文件在后备数据库上恢复主数据库内的数据。
图5.18. 采用Oracle Data Guard的容灾方案
Oracle9i/10G Data Guard提供了三种模式:
ü 最大保护模式
ü 最大可用模式
ü 最大性能模式
Oracle Data Guard最大保护模式提供了对于主数据库最高级别的数据可用度,是一种保证零数据丢失的容灾解决方案。当运行最大保护模式时,Redo纪录以同步的方式从主数据库发送到后备数据库,而且,在主数据库方的事务,一定要等到至少有一个后备数据库确认接收到事务数据,该事务才被提交。在这种模式下,一般配置至少两个后备数据库,以提供双重容错保护。如果后备数据库不可用,则主数据库方会自动挂起处理进程。
最大可用性模式提供了对于主数据库次高级别的数据可用度,保证零数据丢失,并对单个组件的失败提供保护。与最大保护模式一样,redo数据被同步地从主数据库发送到后备数据库。在主数据库方的事务,一定要等到后备数据库确认接收事务数据,该事务才被提交。然而,如果后备数据库因为诸如网络连接之类的问题而不可用时,主数据库方的处理会继续执行。这样,会出现后备数据库暂时与主数据库不一致的情况,但是一旦后备数据库恢复可用,数据库会自动同步,不会有数据丢失。
最大性能模式是缺省的保护模式。与最大可用性模式相比,它对于主数据库提供稍弱一点的保护,但是性能更高。在这种模式下,当主数据库对事务进行处理时,日志数据被以异步的方式传送到后备数据库。在主数据库方,提交操作在完成写的动作前、无需等待后备数据库的接收确认。在任何时候,如果后备方不可用,主数据库方的处理继续执行,这样对性能不会有什么影响。
采用Oracle 9i/10G Data Guard技术进行灾难备份需要满足以下前提条件:
ü 后备系统与主系统的硬件平台、操作系统、操作系统版本等保持一致;
ü 后备系统与主系统上Oracle用户的权限一致;
ü 后备系统与主系统的Oracle数据库版本一致;
ü 后备系统与主系统的Oracle数据库配置文件一致。
采用Oracle Data Guard建设容灾方案有以下优点:
l 完全通过Oracle数据库机制来实现,完全不依赖于其它软件和底层存储平台;
l 可以满足用户的不同性能、数据保护要求,提供多种不同数据保护模式;
l 可以实现一对多的数据复制,提供多重保护;
l 后备数据库可以在很短的时间内提升到生产状态(因为数据库已经在运行);
l 基于IP网络,没有距离限制;
同时,采用Oracle Data Guard建设容灾方案有以下限制:
l Oracle Data Guard的三种模式都将对生产数据库系统的性能产生影响,因而需要更多的处理资源;
l 后备数据库不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
l 只能对Oracle数据库数据提供保护,不能对其它应用数据—如文件应用等提供灾难保护;
l 管理复杂,需要大量的人工干预过程,并且要精通数据库恢复技术,容易发生错误;
l 难以实现大数据量源数据库和目标数据库初次同步,没有相应解决方案;
业界其它基于应用的的容灾方案的优点和局限性与Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex软件,下面也介绍一下:
其实现原理和Oracle DataGuard类似,针对数据库的日志进行数据的增量复制,通过Queue技术来保证传输的可靠性。其方案优势是:
l 同Oracle DataGuard相同的缺点(见上面部分)
l 更加灵活,此方案不依赖于主机系统平台,在主生产主机和备用节点主机不同的情况更具有优势;
缺点是:
l 同Oracle DataGuard相同的缺点(见上面部分)
l 只能是异步模式(基于日志和Queue技术),不适合于同城容灾和高要求的容灾要求,如的零数据丢失要求;
l Oracle对此技术方案不宣布技术支持和问题处理,因此提高了此容灾方案的风险;
第三章 数据容灾通信链路设计
容灾通信链路设计是容灾系统建设非常重要的部分,也是容灾方案设计的难点、要点之一,所以单列本章节进行阐述。
3.1 通信链路设计概述
下面是针对链路设计的相关技术介绍,供参考:
基于主机或基于应用的容灾技术来建设容灾系统,则将采用标准的IP网络连接,通信链路可以是ATM、E1/E3、IP等;如果采用基于存储或虚拟存储的技术来建设容灾方案,则可以采用Fibre Channel、ESCON、DWDM、SONET等通信链路,也可以通过FCIP设备利用ATM、E1/E3、IP等通信链路。
不同的通信链路有不同的要求,如距离限制、带宽能力等;而不同的容灾技术、不同的容灾应用对通信链路的要求不同;采用同步方式或采用异步方式进行数据复制对通信链路的要求也大不相同。
对于一个容灾方案,无论采用哪种复制技术,都需要解决以下问题.
在我当前选择的容灾中心距离的情况下:
· 我需要哪种链路? 需要多少条?成本如何?
· 这么远的距离对应用影响是什么? 如采用同步方式,响应时间是否太长?I/O数量能否满足?
· 如采用异步方式,我的RPO是多少?需要配多大的Cache量?
设计的链路是否一定满足预期的目标?
根据用户的不同要求进行科学的通信链路设计是保障用户在合理的通信成本下成功实现容灾系统建设的重要步骤之一。
3.2 容灾通信链路的比较
当前业界容灾方案的通讯链路基本采用有“裸光纤直连
交换机方式、通过DWDM设备连接裸光纤方式、IP网络方式”等,每种方式各有利弊,以下对不同通信链路方式进行比较。
1) 通过裸光纤直连
交换机,采用FC协议
采用FC协议的通信链路只适用于基于存储复制或虚拟存储复制的容灾方案。在这类方案中,生产中心与备份中心的光纤
交换机通过裸光纤直连,如下图所示:
裸光纤直连
交换机的通信链路模式
两个中心存储系统的容灾端口通过光纤
交换机和裸光纤进行连接,可以保证同步或异步数据复制的性能。为保证高可用,通常采用冗余连接链路设计。容灾链路裸光纤可以和生产主机共享SAN
交换机,也可以独立SAN
交换机(也需要冗余)或SAN Router。通常为避免容灾链路通信和主机访问存储的相互干扰,采用独立的SAN来连接容灾通信链路的方式采用较多。
不同容灾方案需要的通信链路数量是不同的,具体需要链路的条数(即带宽要求)需要具体分析、计算获得。
2) 通过CWDM/DWDM设备直连裸光纤
采用密集波分复用技术,可以加载多协议,例如FC协议、IP协议,如下图所示:
采用CWDM/DWDM设备的通信链路模式
如上图所示, 通过CWDM/DWDM技术,主数据中心和容灾数据中心的IP网络连接、FC连接都可以复用到共享裸光纤,比较好的解决了裸光纤的利用率和多协议复用的问题。为避免单点故障,同样可以采用冗余连接、没有单点故障的解决方案。同时,采用CWDM/DWDM方式有更多的拓扑方案,需要在具体设计时进行分析后确定。
3) 利用IP网络,采用ATM或E1、E3线路
采用基于主机和基于应用的容灾方案可以直接利用IP网络,在此不再多加说明。采用“基于存储或基于虚拟存储”的容灾技术将需要进行FC协议到IP协议的转换,从而将FC加载在IP网络中传输。此方案采用国际流行的IP网络协议和链路,通过FC/IP转换设备(例如Nishan),将FC通道协议打包在IP数据包内,通过IP链路传输,理论上没有距离的限制,适用于远程异步数据复制,是性价比很好的选择。连接示意图如下:
采用FC到IP设备的通信链路模式
4) 各种种通信链路所提供的带宽(只供参考)
线路类型 |
理论带宽
(Mbps) |
实际带宽
(去掉overhead后)(Mbps) |
复制1TB
所需时间 |
T1 |
1.544 |
1.08 |
85天 |
T3 |
45 |
31.31 |
71小时 |
100bT |
100 |
70.00 |
31.7小时 |
OC3 |
155 |
108.50 |
20.4小时 |
OC12 |
622 |
435.40 |
5.1小时 |
千兆以太网 |
1000 |
800 |
2.9小时 |
OC48 |
2488 |
1741.60 |
1.2小时 |
OC192 |
9953 |
6967.10 |
19分钟 |
· T1 - 1.544 megabits per second
· T3 - 43.232 megabits per second (28 T1s)
· OC3 - 155 megabits per second (84 T1s)
· OC12 - 622 megabits per second (4 OC3s)
· OC48 - 2.5 gigabits per seconds (4 OC12s)
· OC192 - 9.6 gigabits per second (4 OC48s)
3.3 容灾通信链路带宽估算
存储系统的性能配置要求和通信链路带宽要求需要根据用户的数据中心的实际情况进行分析计算决定。准确地估算用户的容灾通信链路的带宽要求需要对各中心需要容灾保护的应用的I/O负载进行数据收集,采集各应用I/O特征、负载大小,尤其是写I/O的数据,利用所收集的写I/O数据并结合所采用的容灾数据复制技术以及数据复制模式(同步、异步)、应用恢复的RTO/RPO要求来计算容灾通信链路的带宽要求。
提供标准的方法和工具为客户进行容灾数据复制通信链路的设计,通常按以下步骤来估算容灾方案的通信链路带宽需求:
1) 当前生产中心I/O性能数据收集
主要收集需要进行容灾保护的应用、主机存储的I/O性能数据。数据的收集从两方面获得:
ü 从主机上获得I/O性能数据(如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows
服务器上可利用Perfmon工具获得Windows
服务器的I/O性能数据);
ü 从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)。
2) 利用EMC设计软件过滤I/O性能数据,得到I/O写的数据
容灾通信链路的设计与I/O写的性能要求相关,只有写I/O才复制到远程容灾中心,因此写I/O的特征及负荷决定了链路的要求。此过程将过滤无关数据(如非关键应用的I/O—不需要容灾),得到每秒写I/O次数,不同应用类型的平均I/O块大小,是否有调优的需要等。下图是通过EMC工具获得的写I/O性能数据参考样本。
I/O写性能数据参考样本(EMC工具收集)
3) 根据采集的I/O写性能数据估算客户应用的总体峰值带宽和平均带宽
4) 根据容灾链路类型,连接方案估算容灾通信的“延时”
要考虑不同通信协议的额外开销以及物理链路带来的“延时”。
5) 估计未来性能增长要求和需要预留的峰值空间
通信链路的设计(包括所有能力规划)都需要考虑未来业务的增长,并预留增长空间。
6) 确定同步复制模式还是异步复制模式,如选择异步复制模式,则需要确定RPO要求(最多允许丢失多少数据)--根据RPO要求和业务的I/O量可以设计链路需求;也可以根据现有链路情况,结合业务的I/O量分析可以实现的RPO能力以及在源数据端需要为异步复制额外增加的Cache开销。
6) 利用EMC的专门工具进行设计
根据不同复制模式,将收集的I/O性能等参数输入到EMC工具中,同时考虑链路容余的要求,将可以为客户计算出所需要的带宽要求。
将采用以上方法为用户进行容灾链路设计,该方法已经在很多容灾方案中得到应用并获得成功。利用科学的链路设计方法及独到的设计工具,将能够为用户提出合理的链路规划方案,为成功实施容灾方案奠定基础。
第四章 用户容灾方案系统需求
4.1 系统现状
用户主要IT系统包括办公系统、业务系统以及数据加工系统。办公系统和业务系统主要以
服务器为主的运行模式,部门系统采用了数据集中存储的方案。数据加工系统通过NAS存储作为临时存储介质,对加工完成的数据通过FC SAN的架构统一的存储到专门的系统存储设备中。
对于数据保护方案部分,通过NBU备份软件,将重要的数据备份到带库或者是磁盘阵列中。
如何为上述业务系统提供灾难备份支持,确保了业务系统的7×24×365的业务连续性,实现了无数据丢失的灾难备份系统。将是用户IT系统下一步的建设目标。
4.1.1 建设目标
根据用户现行的容灾规划,容灾项目建设分成两个部分:
同城容灾规划:
· 北京生产机房:主数据中心,用于业务的生产运行,作为集中监控中心。
· 北京同城容灾机房:同城备份数据中心,用于在主数据中心出现短期无法解决的故障或非区域性灾难时,将部分业务或全部应用系统切换到同城备份数据中心。
异地容灾规划:
· 异地容灾机房:异地备份数据中心,用于北京发生区域性灾难发生时,在较短的时间内进行关键的业务应用系统恢复。
4.1.2 对同城容灾和异地容灾的比较
在容灾项目论证过程中,我们建议首先确认我们对容灾系统的目标期望值,目标期望值包括对容灾系统的灾难恢复的预期,一级容灾系统能够处理的灾难类型。
由于***当前可以选择本地容灾和异地容灾方式,通过下表我们可以对两种方式进行比较:
|
本地容灾 |
异地容灾 |
比较 |
链路和距离 |
同城
20KM以内
光纤链路 |
异地
>200KM
光纤、ATM或其他链路 |
|
容灾方式 |
同步级容灾 |
异步级容灾 |
异步级容灾将根据链路质量、延时和数据量等调整异步时间间隔,不同的异步时间间隔所造成的数据丢失不同(RPO不同) |
RPO(数据丢失时间段) |
无数据丢失 |
将出现数据丢失 |
由于异地容灾将造成一定数据的丢失,需要业务部门根据数据的丢失情况来调整相关业务流程(如对丢失数据的人工处理等) |
RTO(业务中断时间段) |
较短时间 |
较长时间 |
均会造成业务的中断,但本地容灾切换方式简单,操作性强,远程容灾方式,当生产中心出现故障后,首先需要判断故障的原因和切换的后果,否则对于假性灾难(没有必要切换到容灾中心的情况),切换后将造成数据丢失的严重问题。 |
抵抗的灾难类型 |
水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 |
地震、水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 |
|
投资情况 |
一般 |
较高 |
|
实施复杂度 |
简单 |
较复杂
其复杂度首先需要进行容灾评估确认 |
|
技术成熟度 |
成熟 |
成熟 |
|
图中在北京生产主数据中心通过裸光纤与北京同城备份数据中心进行连接,北京生产主数据中心(或北京数据备份中心)通过数字专线与异地备份数据中心进行连接,在北京数据备份数据中心与异地备份数据中心保留可用的数字专线接口。
技术实现方法:
· 同城:
技术手段:采用磁盘阵列同步镜像技术
特点:采用DWDM的光纤连接,在网络带宽满足的情况下,对主机系统性能影响较小,数据同步稳定,实现数据高可用性,保证RPO为0,确保同城灾备端始终有一份可用的数据。
· 异地:
技术手段:采用磁盘阵列异步镜像技术
特点:采用数字专用网络来连接,网络带宽小,对主机系统性能影响小,保证实现最大的数据恢复。
在远程和超远程环境中的数据备份系统,必须考虑到光信号在超远距离上的时延,为了保证生产系统性能,必需采用异步方式实现远程数据备份。
4.1.3 本阶段建设目标
根据用户的容灾规划,上述的两地三中心容灾方案将分布实施。
1、 第一阶段,北京建设数据集中存储生产中心;建设北京同城容灾中心。
2、 第二阶段,待新的北京容灾中心建设完成后,从现有方案平滑过渡到三中心方案;建设异地容灾中心,从北京生产中心到异地容灾中心的远程容灾复制;将2中心容灾过渡为3中心容灾。
为了保护现有投资,并实现从现有容灾系统的平滑过渡,建议第一阶段采用如下容灾方案;
1、 利用企业级存储平台VNX,在北京生产中心实现数据集中;现有开放平台存储的数据全部迁移到集中存储平台VNX;
2、 利用企业级存储平台VNX,在北京建设数据灾备存储平台;
3、 利用存储容灾软件MirrorView,将北京生产中心的VNX存储数据同步镜像到北京容灾中心。
在第二阶段建议采用如下容灾方案;
1、 利用企业级存储平台VNX,以及存储容灾软件MirrorView,将北京生产中心的VNX存储数据通过异步容灾的方式复制到异地容灾中心;实现数据的本地和异地容灾备份,该切换之需要短暂的停机,对生产影响极小。
第五章 用户数据保护方案
在对用户生产中心现有环境进行细致分析的基础上,充分了解异地灾备与同城灾备建设的系统需求,严格遵循用户数据保护规划的容灾策略和设计原则,本容灾方案,包含异地灾备和同城灾备总体方案,涵盖生产中心存储整合,以及同城灾备中心、异地灾备中心建设几个主要部分。
5.1 方案整体说明
建立统一SAN架构,建立冗余的网络连接,保证无单点故障。将其他没有集中存储的系统整合到SAN中。
生产存储新购一台EMC VNX5300,将当前业务系统中的重要业务数据迁移到该存储设备集中存储。配置30TB的15K转速 高性能SAS硬盘,满足I/O要求比较到的业务数据读写需求,配置50TB 的7.2K转速 高性价比的NL-SAS硬盘,满足大容量数据的存储需求。
原生产系统中的业务数据在基于SAN架构的基础上,进行数据的迁移,统一的迁移到EMC VNX 5300存储设备中。
同城容灾中心建立数据级别的容灾中心,建立基于同步的镜像方式,实现生产存储设备和容灾中心存储设备业务数据的一致性。配置与生产中心配置完全相同的统一存储设备EMC VNX 5300。
建立异地容灾中心通过基于异步镜像方式,实现业务数据异地的容灾备份,配置存储设备EMC VNX 5300 硬盘配置为80TB的7.2K转速 高性价比的NL-SAS硬盘。
5.2 用户集中存储解决方案
集中存储采用统一存储产品,实现将现有的办公系统、业务系统等重要的数据集中存储到该产品中。统一进行数据的管理、分配。
5.2.1 EMC VNX产品概述
本方案使用业界同类产品最领先的高性能、高可用、可扩展及易用性的VNX5300存储,其多项节能技术降低了客户总拥有成本;本方案存储系统提供高效数据服务,包括数据块压缩、文件重复数据消除和压缩、虚拟资源调配和以应用程序为中心的保护 。
本方案考虑到不同分类数据的业务价值,未来I/O读写的增加,可对虚拟池进行自动分层,以实现自动跨闪存、SAS 和近线 (NL)-SAS 驱动器的数据分层和优化:将数据库日志文件及核心数据放置在闪存驱动器上,大大提高核心生产数据访问的性能;将不重要或者访问较少的应用放置在SATA磁盘上,大大降低了用户不必要的成本。
集中存储方案对用户带来的好处包括:
·
整合:作为一个统一的存储解决方案VNX消除了独立的存储,让你混合和匹配存储类型,并允许应用
服务器的存储整合。这提高了在一个较低的总拥有成本和减少了存储开销的服务水平和成果。
·
简易的管理: EMC的Unisphere软件提供了一个易于使用的,全面的管理工具,可让您管理,发现,监控和配置VNX系统,从一个单一的界面现有CLARiiON系统,以及所有。自动化工具包括向导,从而降低了存储提供所需的步骤。
·
内置功能来提高利用率和降低总成本: EMC公司VNX提供先进的内置容量优化功能,如压缩,重复数据删除的文件系统,自动化卷管理和虚拟资源调配,使您可以节省存储空间。
·
闪存优化: VNX系列的使用提高了缓存的扩展和高性能的存储池闪存硬盘的性能。
·
虚拟化就绪:该系列是完全证明VNX支持所有不同的协议,以保证将VMware,微软HyperV和Xen环境中成功部署。另外,通过Unisphere VAAI (用于集成的vStorage API阵列)与VMware vCenter的集成来提供了两种存储,整个环境和
服务器管理员的从终端到终端的可见度。
·
数据的保护: VNX系列提供了信息保护软件。例如,复制功能有point-in-time的即时恢复功能,快照,克隆和自动恢复来保护,以及遵守保护政策的能监测和预警。
·
可扩展性:VNX为模板化设计能随你的数据增长来付费。根据你所需的文件量和模块量来随时添加X-blade和存储处理器。
·
高可用性:不妥协的可用性意味着客户能在同样的性能和服务水平下继续运行,即使在发生故障时,也能使您避免付出停机的高昂代价。
5.2.2 高可靠性优势
VNX5300一体化存储系统的高可用架构提供简单,稳健的故障切换方式,对系统的正常运做影响很小。群集系统软件会自动侦测到数据移动器的故障,并可将已故障数据移动器上的任务切换到群集系统中热备的节点上。VNX 系列存储可以提供很高的数据可用性,通过将VNX 系列存储的技术优势和企业存储系统相结合,可以提供几乎不间断的文件访问服务。
VNX 系列存储一体化存储系统的高可靠性设计:
冗于结构
VNX 系列存储一体化存储系统通过在磁盘驱动器和网络间创建多条数据访问路径来保证连续的数据可用性。除此之外,VNX 系列存储机柜中的所有关键部件均为冗于配置,保证数据的高可用性。整个系统没有任何单点故障。
每个数据移动器都配置有双网卡,提供了到网络的双路连接。当一块网卡出现故障时,系统中的数据仍然连续可用。
数据移动器和控制
工作站间的双路网络路径保证内部通信链路的冗于
从VNX 系列存储一体化存储系统盘阵到每个数据移动器的双路FC连接支持负载均衡,控制
工作站可冗于配置(可选)。
除此之外,热备的数据移动器可保证当工作的数据移动器出现故障时提供自动,快速,透明的故障切换。
独立的数据移动器/控制
工作站架构保证了数据移动器的运行独立于控制
工作站(除非是要做配置或故障切换)。控制
工作站的故障影响安装和管理(如果是单控制
工作站)。不影响用户对数据的正常访问。
文件系统的在线复制允许创建多份文件系统拷贝,满足多个应用需求。
先进的卷管理功能提供了Hyper Volume,Meta Volume,Slicing,和Striping等功能。
内部的双网络通路保证控制和管理链路的冗于, 同时系统还带有N+1负载均衡电源,电池备份,双路交流电源,环境监控,远程自动报警和诊断等功能。
A.
故障切换:
数据移动器的故障切换(可配置为手动或自动方式)可以让处于热备状态的数据移动器接管已故障数据移动器的所有工作。这种故障切换方式管理和维护简便,同时又能保证数据的高可用性。
为了达到如上所述的高可用性,控制
工作站和机柜中所有的数据移动器通过两条冗于的网络路径相连。控制
工作站连续监控数据移动器的状态及可用性。一旦控制
工作站监测到数据移动器故障,它就会关闭已故障的数据移动器并通知热备的数据移动器。数据移动器自身不带任何磁盘,任何一个数据移动器(包括热备的数据移动器)都能看到VNX上的所有磁盘,这就允许热备数据移动器能够接管故障数据移动器的工作。
热备的数据移动器会采用已故障数据移动器的IP和MAC地址,接口的主机名称,以及关于配置和文件系统的所有信息。客户端的服务仍然继续。热备的数据移动器继续向客户端提供NFS服务,不需要卸载或重新安装文件系统。
注意:
一旦配置完毕,切换过程完全是自动的,不需要人工干预。
切换过程对NFS客户机是透明的。但CIFS客户机上的Windows应用或客户可能需要重起。
热备的数据移动器已经启动,因此这部分系统启动时间不用考虑。
故障切换不会降低系统的吞吐量。
一个热备的数据移动器可为多个数据移动器做备份。
1.
VNX 系列存储一体化存储系统高可靠性设计优势:
VNX 系列存储一体化存储系统全冗余的结构及先进成熟的核心微码计算控制技术确保数据最高级别的安全性,在任何意想不到的故障发生时保证数据安全并且保证数据的完整性(不发生错误)。同时,配合阵列先进的软件功能,在阵列和主机连接通道某些部件故障时确保不停机,支持应用的连续运行。
VNX 系列存储一体化存储系统所结合的存储系统,领先其他存储厂家两年以上的时间的业界第一套的全光纤存储结构地磁盘阵列,具有全球第一的先进性,并且已经是最为成熟的第六代产品。应用在各行各业的各种应用,成熟性得到了很好的验证。
VNX 系列存储一体化存储系统所结合的存储系统提供了无单点故障的可扩展、用途广的架构。它通过集中管理,延续了EMC产品赖以成名的各种数据完整性和高可用特性,包括全球零部件供应、冗余电源和冷却、通向光纤信道磁盘驱动器的四条路径、双向活动存储处理器以及遍布整个阵列的数据路径奇偶校验。
如果不能不间断地存取信息,高性能的出色体系结构也毫无意义。所有 VNX系统都充分具备满足此要求的功能。每个存储处理器的缓存都对另一个缓存进行镜像。每个存储处理器中的写缓存都包含它拥有的 LUN 的主缓存数据,及其对等存储处理器的缓存的次副本。 如果某个存储处理器发生故障,另一个正常的存储处理器中的缓存数据(主和次)会立即被写入到磁盘中,以确保写入的数据被安全存储。控制器和缓存保险磁盘的电池备份具有可将缓存数据保存到磁盘的顺序关闭功能,从而确保在电源出现故障时提供数据保护。
VNX系统提供各种 RAID 数据保护选择。 其中包括 1/0、0、1、3 、5和6 级的 RAID。所有级别可以同时共存于同一个阵列中,以便根据数据的价值采取相应的特定保护措施。 所有磁盘能够通过双通道存取,以便在某个端口发生故障时提供冗余存取。 另外,能够以无中断方式现场更换所有主要的VNX 系列存储一体化存储系统所结合的VNX存储系统组件 --电源、磁盘驱动器、存储处理器。
连续缓存和磁盘数据完整性检测/更正、故障隔离、磁盘热备份、自动诊断和电话求助功能使VNX 系列存储一体化存储系统所结合的VNX存储系统的数据完整性功能十分完善。多种本地及远程复制软件选项可用于业务连续性和灾难恢复,让您安心。
VNX 系列存储一体化存储系统所结合的VNX存储系统系列在同一个阵列中支持光纤通道和成本及性能较低的 ATA(高级技术连接)磁盘驱动器。 在业界中,VNX 混合和匹配不同的驱动器技术的灵活性是独一无二的。 利用这一部署灵活性,客户能更好地使应用需求与性能和成本需求相符。 自从引入了 ATA,VNX 系列存储一体化存储系统所结合的VNX 系列存储一体化存储系统所结合的VNX存储系统的管理和软件功能与这两种驱动器技术保持了百分之一百的兼容。 因此,无需学习新的技术内容。
VNX 系列存储一体化存储系统所结合的VNX存储系统在 2003 年 3 月推出ATA磁盘,它为在线存储带来了新的经济性。ATA 的经济性使客户能将更多信息在线保存更长时间。客户现正将 ATA 驱动器用于:
· 备份到磁盘的应用 - 善原来通过传统磁带解决方案提供的服务的水平
· 数据复制 - 用 MirrorView 复制存储软件部署低成本的 ATA 驱动器
5.2.3 数据安全性靠性优势
EMC VNX 系列存储一体化存储系统的数据移动器中运行EMC的DART专用系统,专门优化设计来完成存储和网络之间的数据传输。 VNX 系列存储一体化存储系统中的FLARE OS是专门用来完成智能磁盘系统管理的操作系统,包括硬件RAID保护, 大容量Cache I/O优化,镜像写Cache保护,Sniffer磁盘扇区自动检查, 系统掉电时Cache数据安全地写入磁盘等都是通过该操作系统来实现的。由于采用了专用的后端智能磁盘子系统和FLARE OS来完成底层的磁盘管理, 前端的DART系统可以更专著于文件系统和NFS/CIFS协议等的处理, 更好的实现系统的整体性能优化。FLARE OS也已有超过十年的历史(1991/1992),属于非常成熟的磁盘操作系统。VNX 系列存储一体化存储系统拥有有冗于的存储处理器, 每个存储处理器的高速缓存均彼此构成镜像。换言之,每个存储处理器中的高速缓存既包含它所拥有的磁盘组的基本高速缓存数据,也包含其他存储处理器的基本数据的副本。如果发生存储处理器失效,则仍正常工作的存储处理器的高速缓存—包括其基本高速缓存和与 其并列的存储处理器的镜像—将立即被写入磁盘存储。因此,EMC VNX 系列存储一体化存储系统能永远确保写操作被安全地逐级传递给磁盘,即使在单个存储处理器失效的情况下亦如此。VNX 系列存储一体化存储系统中有专门用来保护电源失效的SPS(Standby Power Supply),如果发生电源失效的情况,则SPS装置可提供需要的电力,从而确保全局高速缓存中的数据安全地写入磁盘,保证数据在永久磁盘介质上得到最安全的保护。
5.2.4 RAID及卷管理技术优势
在RAID保护方面, 采用了专业化的设计,即前端的数据移动器运行DART,专门完成文件共享及NFS/CIFS等协议,RAID保护的工作有专门的智能磁盘阵列来完成,即通过硬件完成RAID保护。
在RAID数据保护技术方面,后端的存储系统提供了灵活的选择,支持主流的RAID级别, 包括RAID0,1,3,5,6,1/0,RAID5的组大小非常灵活,从3+1到15+1不等,存储空间的利用率比较高。CX700系统中有专用的CPU完成RAID中的数据校验操作,属于硬件方式的RAID。这就大大加快了RAID系统的恢复过程,降低了用户数据丢失的风险。RAID5的校验数据平均分布在RAID5组中所有的磁盘上, 系统的性能会比较好。
在网络存储方案中,RAID和卷管理是两个独立的概念,用户建立了RAID组之后,可在RAID组之上在建立逻辑卷,逻辑卷的粒度可以小到1MB,大到TB级,非常灵活。同时逻辑卷可以分布在多个RAID组上。这就大大方便了逻辑卷的管理,并大大降低了动态逻辑卷扩充时对已有应用的影响。SAN环境的主机通过光纤通道以裸设备方式(Raw Device)使用存储, NAS环境的主机通过IP以文件系统(File System)方式使用存储。
5.3 用户数据迁移建议方案
针对用户现有数据存储的现状,推荐采用EMC SAN COPY迁移技术实现存储级别的数据迁移,对于数据仅仅存储在PC Server 上的业务数据通过手工的方式将数据迁移到新购集中存储设备中。
建议采用基于SAN网络的SAN COPY迁移方案。
SAN COPY是基于VNX存储的数据迁移技术,可以实现增量的从VNX将数据迁移到VNX存储设备。最高可以达到数TB/小时的迁移量。这种迁移方案的优势在于对于生产系统的影响较小,可以在联机作业的同时进行数据迁移。迁移方案如下图:
这种方案的步骤为:
1、 后台数据从VNX将数据迁移到VNX存储设备;
2、 数据迁移测试,做法是利用1台
服务器在VNX 5300端验证数据;
3、 增量数据迁移;
4、 业务停止,数据库offline。数据备份。同时增量同步数据变化量;
5、 两边数据同步完成后,在VNX 5300端开始数据验证,引导数据库和业务系统;
6、 成功后,恢复
服务器双机。
5.4 用户数据同城容灾方案
我们在规划灾难恢复方案时,首先应根据具体业务要求明确灾难恢复方案所要达到的目标。因为不同的灾难恢复目标,会有不同的灾难恢复技术实现方案,以及炯然不同的投资规模和运行成本。
应对灾难的种类
有许多计算机系统内部以及计算机所处环境中的潜在因素可能会造成数据丢失情况的发生。据不完全统计,造成数据丢失的事件中,软硬件和网络故障占11%左右,断电和电源故障占50%左右,火灾地震爆炸和雷电等灾害占18%左右,人为因素占17%左右,其他因素占4%左右。
恢复时间目标(Recovery Time Objective)
恢复时间目标(Recovery Time Objective- RTO)是灾难发生后业务能够容忍的停顿时间;或者说灾难发生后,恢复业务运行所需要的时间。一般来说,恢复时间(RTO)越短,那么灾难恢复方案的成本就越高,但是由于灾难造成的业务损失就越小;反之,恢复时间(RTO)越长,灾难恢复方案的成本较低,但是由于灾难造成的业务损失就较大;最佳的恢复时间目标(RTO)应为业务影响(损失)曲线和方案成本曲线的交点所对应的时间。比最佳恢复时间更短的目标,将造成投资浪费;而比最佳恢复时间更长的目标,灾难发生造成的损失会大于方案投资成本,所以灾难损失的风险较大。
恢复数据目标(Recovery Point Objective)
恢复数据目标(Recovery Point Objective- RPO)是灾难发生后业务能够容忍的数据丢失量;或者说灾难发生造成的数据丢失量。一般来说,恢复数据目标(RPO)越高(即,丢失的数据越少),方案的成本越高,但是由于灾难造成的业务损失就越小;反之,恢复数据目标(RPO)越低(即,丢失的数据较多),方案的成本较低,但灾难造成的业务损失也较大。
最佳的恢复数据目标(RPO)应为业务影响(损失)曲线和方案成本曲线的交点所对应的目标。比最佳恢复数据目标更高的目标,将造成投资浪费;而比最佳恢复数据目标更低的目标,灾难发生造成的损失会大于方案投资成本,所以灾难损失的风险较大。
5.4.1 用户同城容灾实现需求分析
在建设两个容灾中心数据同步的方案中,同步的方式对两个容灾中心之间的链路有比较高的要求,要求两个容灾中心的距离不超过30KM,之间的链路为裸光纤链路。具体要要求分析如下。
|
本地容灾 |
异地容灾 |
比较 |
链路和距离 |
同城
20KM以内
光纤链路 |
异地
>200KM
光纤、ATM或其他链路 |
|
容灾方式 |
同步级容灾 |
异步级容灾 |
异步级容灾将根据链路质量、延时和数据量等调整异步时间间隔,不同的异步时间间隔所造成的数据丢失不同(RPO不同) |
RPO(数据丢失时间段) |
无数据丢失 |
将出现数据丢失 |
由于异地容灾将造成一定数据的丢失,需要业务部门根据数据的丢失情况来调整相关业务流程(如对丢失数据的人工处理等) |
RTO(业务中断时间段) |
较短时间 |
较长时间 |
均会造成业务的中断,但本地容灾切换方式简单,操作性强,远程容灾方式,当生产中心出现故障后,首先需要判断故障的原因和切换的后果,否则对于假性灾难(没有必要切换到容灾中心的情况),切换后将造成数据丢失的严重问题。 |
抵抗的灾难类型 |
水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 |
地震、水、火灾、电力故障、设备严重物理损坏、人为设备物理损坏等 |
|
投资情况 |
一般 |
较高 |
|
实施复杂度 |
简单 |
较复杂
其复杂度首先需要进行容灾评估确认 |
|
技术成熟度 |
成熟 |
成熟 |
|
容灾系统是为核心业务系统服务,两个存储系统分别用于生产中心与灾备中心进行实时数据同步镜像,要求复制数据必须保证时间次序和一致性,并且数据不丢失,即平时RPO大约等于0,业务繁忙时候RPO小于1分钟。生产中心和容灾中心各有业务主机与存储阵列相连。
备注:该数据复制系统的技术指标需要根据用户的实际环境,例如通讯链路质量、业务的高峰时间性能影响和容灾系统的运行模式等因素,才可以最终确定。
根据思达睿智多年的容灾系统建设和实施经验,企业的容灾和业务永续性项目目需要满足以下要求:
对生产系统的影响:在生产系统出现异常情况或灾难性故障时,生产系统的联机交易能够的切换到容灾存储进行数据访问,完全或基本消除对终端用户业务的影响,实现业务连续性的最高保护级别和业务处理接管。在规划系统的时候,必须考虑将来对生产系统的影响,如时延,灾难的切换等,不能因为容灾系统而降低生产系统的性能,故必须考虑网络,系统切换等因素。
容灾方向的切换:在生产系统恢复正常以后,用户可以通过简单的控制命令实现回切(FailBack)至生产系统,同时继续正常的数据复制行动,实现容灾系统的透明回切功能。
根据业务选择不同的容灾模式,应同时支持同步/异步模式: 用户可根据数据的重要性划分数据备份等级,如核算系统数据可采用同步镜像模式,有些系统话可采用自适应拷贝(即异步)模式,不同的模式可在同一通信链路上实现,具体可根据用户的需求而定。而且同一生产卷的操作方式可以很方便的切换成另一种方式,切换后的数据复制是增量复制,不需要生产卷重新全盘复制。
系统网络资源需求:
· 在选择同步容灾模式时,延迟是必须首先考虑的重要因素,包括:
· 纯粹信号延迟:协议转换,线路距离,往返次数
· 网络技术延迟:协议负载
· 带宽因素
· 队列延迟操作并行性与延迟积累等
容灾端数据与本地复制软件的集成,提高数据利用率:利用本地镜像软件为备份端数据进行本地镜像时,应不影响生产端与备份端的镜像关系。本地镜像软件应能作全局的数据复制,而不是局限在某些磁盘内,以增加方案的灵活性和扩展性。
与数据库的集成:数据库对数据的一致性,时间戳等最为敏感,故容灾方案与数据库的集成也是关系到容灾成败的关键因素。
5.4.2 用户同城容灾实现方案
通过存储设备的MirrorView同步镜像方案,实现同城容灾。
MirrorView的实施和主机、操作系统、数据库透明,即不占用主机、操作系统、数据库。而且不同的主机、操作系统、数据库可以通过一套MirrorView实现容灾。MirrorView同时支持双向的容灾互备。MirrorView用来复制基于SAN存储网络的数据。
在异地容灾建设过程中,可根据实际情况进行分步实施。
针对用户的需求,建议采用基于存储阵列的MirrorView中心容灾方案。在北京生产中心和同城灾备中心,建议采用基于存储阵列的无数据丢失的Mirror同步容灾方案。这种方案能够在保障生产系统正常运行、性能不受影响的前提下,实现数据0丢失。
5.5 用户数据异地容灾方案
5.5.1 用户异地容灾实现需求分析
目前部署两地三中心容灾方案主要有一下三种模式:
1、接力模式
生产数据同步镜像到同城容灾中心,然后同城容灾中心作为跳板,将业务数据异步复制到远程中心。此方案中的同城容灾中心的数据卷即是同步容灾的目标,又是远程异步容灾的源,EMC称之为“源目标卷”,实现把生产数据向远程中心进行批量传输复制。
此方案,生产中心和远程中心之间没有直接的通信联系,通过同城容灾中心进行接力式的传递。缺点是一旦同城容灾中心出现灾难,生产中心和远程数据中心之间失去联系。
此方案的优点是策略简单,技术成熟可靠,它也是目前实施的最多的一种三中心容灾模式。该方案对连路带宽和设备的需求都较少。
2、并行模式
生产中心的源数据同步镜像到同城容灾中心,同时异步复制到远程容灾中心。当生产中心发生灾难,生产业务可以快速切换到同城容灾中心,并且可以满足“0”RPO的要求。
这种方式,同城容灾中心和远程容灾中心之间没有联系。一旦生产中心出现灾难,同城容灾中心与远程容灾中心将成为两个孤立的信息中心。
3、三角形模式
在原有的生产、同城容灾和远程容灾中心之间的并行或接力链路关系基础上增加一条备用的异步复制链路。
生产中心出现灾难,同城容灾中心与远程容灾中心之间要启动备用链路,同城容灾中心和远程容灾中心之间只需要进行差易数据同步即可,不需要进行数据初始化同步。这种方式实现了三个中心间的完全容灾,具有抵御二次灾难的能力。
三角形容灾的优点是能够提供最高等级的容灾保护,抵御两次灾难的打击。但是其相应的缺点在于需要2个远程复制的链路,带宽费用较高;其次是该方案的容灾接管策略复杂,管理维护成本较上两种方案高。
这三种方案都是常见的三中心容灾方案,在同城容灾的基础上提供了远程保护,大大地提高了数据保护的等级,满足了用户的需求。
根据用户的需求,综合考虑到技术方案的管理维护成本和投入,建议采用接力模式的两地三中心容灾方案。
5.5.2 用户同城容灾实现方案
为了进一步提高数据安全性的保护,用户在实现同城容灾的基础上建立两地三中心的异地灾备中心,防范区域级的灾难。根据用户的IT发展规划,先建设北京同城容灾中心的基础上,规划建设异地容灾中心;最终形成2地3中心的容灾架构。
这样一个同城灾备加上异地灾备的三中心灾备方案,根据容灾规划,生产数据中心作为生产中心,运行绝大部分业务系统,并且作为集中的监控中心。同城备份中心实现与生产中心应用级的灾备功能,确保RTO和RPO范围内的业务持续运行,防御非区域性灾难。异地数据容灾中心实现数据级的备份,常规情况下用于测试系统,用于防御重大区域性灾难。
在北京生产中心和同城灾备中心到异地灾备中心之间建立基于磁盘阵列的Mirror异步数据复制,实现无距离限制、无数据丢失的远程数据备份方案:
l 生产中心的磁盘阵列与同城灾备中心磁盘阵列保持同步关系。
l 同城灾备中心与异地备份中心间磁盘阵列为异步关系。
在正常运行时,将生产中心的存储系统设置成源磁盘,将同城灾备中心的存储系统设置成目标磁盘,这样源磁盘中的数据就会在MirrorView的管理下通过数据备份通道镜像至目标磁盘之上,Mirror同步方式可以保证写入磁盘的数据绝对不会丢失。
当生产系统发生灾难性故障时,利用同城灾备中心同步的Mirror备份数据和同城灾备中心的备份机,可有效的将生产数据恢复到完全一致的生产状态。
与此同时同城灾备中心MirrorView将实时传送至异地的灾备中心,保证同城区灾难备份系统完整性和远程备份系统的有效性、自动化。
灾难备份系统在灾难发生后能否快速接替或恢复系统工作,使业务系统尽快恢复运行,需要强有力的组织、管理工作和多种规程予以保障。得当的组织管理工作、训练有素的人员可以大大缩短恢复的时间,组织管理工作是灾难恢复工作中的重要一环。在具体的实施过程中,我们将针对操作规程、机构和人员管理以及各种所需的制度提出具体Mirror应急操作的预案,以保证在各种灾难场景下,系统的可用性。