数据容灾备份解决方案

上传人:无*** 文档编号:191243784 上传时间:2023-03-02 格式:PDF 页数:50 大小:2.73MB
收藏 版权申诉 举报 下载
数据容灾备份解决方案_第1页
第1页 / 共50页
数据容灾备份解决方案_第2页
第2页 / 共50页
数据容灾备份解决方案_第3页
第3页 / 共50页
资源描述:

《数据容灾备份解决方案》由会员分享,可在线阅读,更多相关《数据容灾备份解决方案(50页珍藏版)》请在装配图网上搜索。

1、中国移动公司 IP 网管系统数据容灾备份解决方案 VERITAS 公司北京办事处 2013年 4 月 16日第 1 页目录1系统需求分析.21.1 系统建设目标.2 1.2 需求简析.5 2高可用容灾方案设计.82.1 设计原则 .8 2.2 方案概述 .9 2.1.1 IPNET 流量管理服务器及NetCool 汇总管理服务器“N+1”冗余备份方式 .10 2.1.2“N+1”冗余备份方式.11 2.1.3 N 节点循环备份方式.11 2.1.4 软件安装.12 2.1.5 NetCool 网管服务器/PM 服务器、业务网管服务器、Precision 服务器容灾.12 2.1.6 功能配置说

2、明.14 2.1.7 Visionary 应用服务器、NetCool 报表服务器、IPNET 报表服务器容灾.17 3高可用容灾方案实现.193.1 软件功能解释 .19 3.2 安装、配置过程.24 3.3 工作过程 .26 3.4 方案分析 .29 3.1.1 3.4.1 有关数据的量化分析及结果.29 3.1.2 方案小结.30 4附 录.36一、VERITAS 公司简介 .36 二、VERITAS Foundation Suite?.38 三、VERITAS Cluster Server?.45 第 2 页1系统需求分析1.1系统建设目标建设本系统的目的是为中国移动公司IP 网管系统建

3、立一个全面的、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。常言道,“知己知彼,百战不殆”。要实现容灾,首先要了解我们的“敌人”灾难。那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段,由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。事实上,我国2003 年遭遇的“非典”,某种意义上也是灾难。对此,我们

4、认为需要做到两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划,二是在危机突然降临时,此计划能被有效执行。对于IT 系统,除了上述的灾难之外,与系统相关的计划外宕机也可视作灾难。对于 IT 系统而言,在技术层面上,容灾需要考虑:*数据版本保护 建立容灾的多版本保护底线(Bottom Line)*实时数据保护 数据复制,近乎 0 的数据丢失,数据一致性*应用 系统 恢复 恢复 时间(包 括数 据库恢 复)、应 用版 本的 一致性(PTF)等*网络系统恢复 数据访问点变化、建立新网络路径、动态路由(收敛时间/稳定性)*容灾切换决策 及时发现灾难(容灾系

5、统管理)、容灾切换的损失和补救办法*容灾切换过程 变更管理同时,无论任何时候,备份都是非常重要的,并要定期测试备份的可靠性。第 3 页一种技术只能减少或防止某些类型的灾难的影响。除了简单或一成不变的应用,在没有特别要求的情况下,尽量不要采用操作系统层面以上的数据复制技术。而没有文档化的流程就相当于没有流程,没有流程的系统能够在要求时间内恢复完全靠运气(通常不能)。另外,在通常情况下,IT 系统相关的灾难备份方案设计都必须考虑以下五大因素,1,灾难类型需要考虑哪些灾难?怎样的灾难?会使业务中断多久?2,恢复速度灾难发生后需要多久来启动及运行系统?能否承受数天或数分钟的等待?3,恢复程度需要恢复每

6、条记录和交易吗?可以使用上星期或昨天的数据吗?需要恢复一切吗?有不相关的文件吗?什么是合法隐含的要求?有少数的一组人输入交易吗?他们可以重新输入灾难期间丢失的交易吗?这些交易十分重要而不容许丢失吗?4,可用的技术必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约?5,方案总体成本实现灾难备份需要多少投资?不实现灾难备份会损失多少钱?据国际标准SHARE78 的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复计划。这取决于下列要求:备

7、份/恢复的范围灾难恢复计划的状态在应用中心与备份中心之间的距离应用中心与备份中心之间是如何相互连接的数据是怎样在两个中心之间传送的第 4 页有多少数据被丢失怎样保证更新的数据在备份中心被更新备份中心可以开始备份工作的能力现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是1992 年 Anaheim 的 SHARE78,M028 会议的报告中所阐述的七个层次:0 层-没有异地数据(No off-site Data)Tier0 即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层

8、并不具备真正灾难恢复的能力。1 层-PTAM 卡车运送访问方式 (Pickup Truck Access Method)Tier1 的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM 指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。2 层-PTAM 卡车运送访问方式+热备份中心 (PTAM+Hot Center)Tier2 相当于Tier1 再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。第 5 页3 层-电子链接 (Electronic Vaulti

9、ng)Tier3 是在 Tier2 的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。4 层-活动状态的备份中心 (Active Secondary Center)Tier4 指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。5 层 两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-PhaseCommit)Tier5 则提供了更好的数据完整性和一致性。也就是说,Tier5 需要两中心与中心的数据都被同

10、时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。6 层-0 数据丢失 (Zero Data Loss),自动系统故障切换Tier6 可以实现0 数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。1.2需求简析对于 IT 系统的容灾指标,我们可以通过下列参数表示:*以恢复点为目标(RPO-Recovery Point Object)数据的完整性(无数据丢失)数据的一致性(数据正确且可用)以恢复时间为目标(RTO-Recovery Time Obj

11、ect)第 6 页中国移动公司的网管系统结构图如下:可以看到在移动IP 网管系统中,包含着众多的功能子系统,根据每个子系统数据变化的频度以及在整个网管系统中所起到的作用,我们为每个子系统制定了符合各自特色的 RPO 和 RTO。第 7 页在移动公司现有的业务系统中,仅考虑本地高可用性,即通过集群的双机系统(Cluster或 HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。但是,随着业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。越来越多的客户提出了

12、要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。第 8 页2高可用容灾方案设计2.1 设计原则我们为移动公司综合结算提供的高可用容灾方案的设计原则如下:方案当前即可实施在满足要求的前提下尽量简单除特别必

13、要,不需要增加另外超出本方案的软硬件如果一个软件产品可以实现需要的功能,我们不会再使用另外的产品实现重复的功能同一方案适合多种平台环境,降低安装、管理和维护的难度。VERITAS 的容灾方案是一个完整的方案,该方案包括5个功能:主节点主机系统在异地的备份和恢复(即IT 系统重构和业务接管)、主节点业务数据在异地的备份及恢复(即生产数据的备份和恢复)、主节点到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切换保护、应用远程容灾切换。涉及的产品包括Netbackup Enterprise Server、Bare Metal Restore、Volume Manager+Volume Re

14、plicator,VERITAS Cluster Server和 Global Cluster Manager。该方案涵盖了容灾恢复的7 个层次,为整个业务系统提供全面的保护,其对应需求分析的系统和各子系统的RPO/RTO如下:第 9 页在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。图中涉及的软件产品将在下面论述。2.2 方案概述针对 IP 网管系统及各子系统实际分析得出的RPO/RTO,我们分别采用不同的技术手段对其实现高可用保护。1IPNET流量管理服务器及NetCool 汇总管理服务器该系统属于核心业务系统,数据更新率极高,且要求在灾害发生时必须立即投 入备 份节 点

15、以 维 持 业务 的 连 续性,因此,我 们在 数据 层采 用 Volume Replicator进行实时的远程数据复制;在应用层采用Cluster Server和Global Cluster Server进行实时业务级切换。同时,为保证不可预见的意外事件不对业务系统造成不可恢复的影响,我们还建议利用 Netbackup Enterprise Server和 Bare Metal Restore技术,利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。2NetCool 网管服务器/PM服务器、业务网管服务器、Precision服务器该系统属于业务管理系统,直接关系到管理人员能否顺利地进

16、行网络日常的管理和维护,并关系到IP 业务的正常运行,因此需要及时在容灾节点实现接管,但该业务子系统的数据更新率并不高,而且周期性比较强,因此没有必要花费高昂的代价进行实时的数据复制,可以采用主节点数据备份,容灾节第 10 页点异地数据恢复的手段保证数据的完整性和一致性。我们建议在 应用层面 上,本地节点利用 Cluster Server实施主机高可用性,防止主机故障,容灾节点利用Global Cluster Server实施远程应用切换。在数据层面 上,利用 Netbackup Enterprise Server和 Bare Metal Restore技术,在本地先形成一套主机系统和业务数据

17、的磁盘备份,并每隔8 小时在后台将本地备份数据复制到远程容灾节点(周期复制),异地节点恢复主节点数据,以实现主备节点的数据同步。3Visionary应用服务器、NetCool 报表服务器、IPNET报表服务器该系统属于整个网管系统的报表系统,数据变化量的频率相对较低,保留每天的数据即可,因此可以考虑底层数据备份,业务层手工或脚本切换的方式实现系统可用性,我们建议利用 Netbackup Enterprise Server和 Bare Metal Restore 技术,利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。4整个网管系统的历史数据为了保证在任何不可预见的情况下都能正常维护整

18、个IP 业务网络,我们还建议在主节点和灾备节点利用Netbackup Enterprise Server在磁带上至少保持 6 个月内的系统历史数据。2.1.1IPNET流量管理服务器及NetCool 汇总管理服务器“N+1”冗余备份方式对于该子系统,VERITAS 解决方案能够按照现业务系统的要求实现多种容灾模型。即:“1+1”冗余备份方式“N+1”备份方式 N 节点循环备份方式(如果只要求 N=2,即双地点互为备份)第一种方式实际是第二种方式N=1时的特殊情况,以下不单独讨论。第 11 页2.1.2“N+1”冗余备份方式为 N 个正在运行的移动公司IP 业务系统建立一套远程容灾备份系统,称为

19、“N+1”备份方式。这种方式下,N 个正在运行的业务系统中的任何数据的更改,包括静态数据更改与动态数据更改,都必须同步到备用系统中。备用系统中存储着所有的 N 套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障,则备用系统使用对应当前故障系统的用户数据和相应应用,来接管故障系统的业务。若正在运行的N 个业务系统中所有系统同时发生故障,则备用系统使用的所有对应故障系统的备份数据和相应应用,接管所有业务系统。“N+1”备份方式的优点是建设成本比较低,可以使用一套备份系统为多个系统提供容灾备份的功能,平时设备利用率比较高。“N+1”备份方式的缺点是当多个系统同时发生故障,如果只有一套备份

20、系统为所有用户提供服务,可能导致服务质量的下降。该方式建议备份系统使用较高的硬件配置。“N+1”系统简单示意图如下图(图二):2.1.3N节点循环备份方式由于只要求 N=2,实为一对一互为备份。Site A 运行本身业务系统的同时,还作为Site B业务系统的备份系统;同理,.数据传输方向图二 多对一备份Site 1Site nSiten+1Site 2第 12 页Site B运行本身业务系统的同时,还作为Site A 的备份系统。正常情况下,Site B 拥有本身业务的应用、数据库进程和相关的数据,同时,Site B 系统中有相应的数据区存储从 Site A 实时复制来的数据。而且Site

21、B实时将数据复制到Site A。当 Site A 发生灾难时,Site B 除了提供本身业务外,还要提供Site A 的相应服务。反之同理。N 节点(N=2)循环备份系统简单示意图如下图(图三):2.1.4软件安装在两种情况下,每个地点的每台服务器上安装的软件相同,只是不同情况下配置方法不同,每台服务器的具体配置方法后面讨论。每台服务器安装软件如下:1)安装 VERITAS Volume Manager(VxVM)2)安装 VERITAS File System(VxFS)3)安装 VERITAS Volume Replicator(VVR)4)安装 VERITAS Cluster Serve

22、r(VCS)、相应的数据库代理(Agent)和应用软件代理5)安装 VERITAS Global Cluster Manager(GCM)2.1.5NetCool 网管服务器/PM服务器、业务网管服务器、Precision服务器容灾该系统在远程的应用切换层面上和前述方案一样,不同的是在数据复制的方法上,我们利用了 Netbackup实现数据的周期性复制数据传输方向图三 相互备份SiteASite B第 13 页NetBackup是 VERITAS 公司的备份管理软件,它致力于解决网络上大、中、小型服务器和工作站系统上的数据备份、归档及灾难恢复问题,Veritas 备份产品国际市场份额 2000

23、年为 39.1%,2001 年为 40.8%,2002 年为 40.6%,下图为 Garner Group 统计的 VERITAS 备份产品 2002年国际市场份额:它的突出特点主要有:管理简单采用统一的 Java或 GUI 图形界面,管理轻而易举,使用先进的人工管理界面工具,制定备份策略、介质管理策略,对各项备份作业进行监控。Netbackup 提供了远程分发式安装工具,当用户拥有众多的客户机,无需占用大量人力进行分散的安装,只需通过server进行远程分发软件安装。裸金属恢复 BMR(Bare Metal Restore)对于系统中的 HP-UX,IBM AIX,Microsoft Win

24、dows NT/2000 和 Sun Solaris 等不同操作系统环境,我们通过VERITAS Bare Metal Restore(裸机恢复)功能,来简化服务器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数据完全丢失时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光盘进行操作系统重新安装,硬盘重新分区,IP 地址重新设置,以及备份软件重新安装等复杂的步骤。数据恢复重定向在数据恢复的过程中,我们可以通过授权,进一步让系统管理员选择数据恢复的目标客户机。这样,我们可以灾备系统上恢复所需要的数据,保证数据的可操作性。并行处理NetBackup 可以实现多磁带

25、机并行操作,因此可以有效地增加带宽。如果数据被并行定位(co-located)到多盘磁带上,执行选择性恢复的过程将会很快。NetBackup 可以通过策略共享实现多作业复用(Multiplex)磁带,从而大大加快了备份进度,减少了磁带操作过程的开销。这一提高是显而易见的。真正映象恢复(True Image Recovery)使用全备份和增量备份后,恢复时根据映象(image)恢复,真正做到已删除文件无需恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删除。第 14 页磁带多重拷贝 (Inline Tape Copy,Duplicate)磁带在线复制Inline Tape

26、 Copy 允许用户在执行备份期间,创建备份数据的多份拷贝。复制允许备份完成后复制多份备份数据。Netbackup 可以一次备份或复制2-4份拷贝,管理多达同一备份的10份拷贝,并且每份拷贝有自己的保护周期提供灾难恢复能力-VAULT 在多个地点保存备份或复制介质,保证当发生灾难时或多个的地点快速恢复关键的数据。2.1.6功能配置说明NetBackup Server:备份系统的核心,该服务器既是主备份服务器可以对整个备份系统进行监控和管理,备份环境的核心数据应用库、备份策略和设备配置均存放在这台服务器上,又是介质服务器,可以直接连接并执行自动化管理磁带库及其介质。由于生产和测试网在物理上是隔开

27、的,所以需要分别安装两套备份服务器。这样可以使生产和容灾的备份完全独立,但生产数据可以通过两台磁带库实现异地保留。?NBU Client:SNA 服务器和测试网的服务器的备份方式采用网络备份的方式。?Bare Metal Restore:所有服务器实现裸机恢复。具备“一键”恢复系统的功能,减少数据恢复的复杂度和时间。?可以采用Netbackup 复制方式或者采用制定两个策略对应不同的磁带库进行备份实现本地、异地双备份。Netbackup 支持不同磁带库之间的数据复制,可以设置策略定时进行,相对于Client 系统数据同时备份到两个磁带库的方法,该方法只复制备份后产生的Image 文件,该作业由

28、Master Sever 调度,执行在磁带库之间的数据复制,节约原Client系统资源。?利用光纤线路和远程磁带库实现了异地的数据备份保护,但在灾备点如果没有备份恢复服务器,即只保留了数据。如果生产点的备份服务器损坏,则影响了正常的备份。同时如果没有灾备点的备份恢复服务器,如果生产点出现场地问题,不第 15 页能立刻在灾备点进行恢复。此时可以利用测试网中的备份服务器重新导入生产网备份的 CATALOG,近而恢复数据。以上是为我们为业务系统提供的数据备份复方案,设计的目的是采用业界最先进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。同时本方案还提供裸机快速恢复和异地磁带级容灾技术,从技

29、术上保证了数据中心的可靠性和快速恢复能力。2.1.7利用磁盘缓冲实现周期数据复制磁盘缓冲(DISK STAGING)为 NetBackup 管理员提供了一种备份方法,首先在磁盘上创建备份镜像,然后将镜像转移到另一种介质上。NetBackup 软件的磁盘缓冲分三个步骤完成:首先在磁盘上创建NetBackup 备份镜像,然后在可以配置的稍后时间,将镜像转移到另外一个介质上。此外,磁盘缓冲可以方便备份和恢复,NetBackup 用户可以利用磁盘缓冲,为将数据传输到磁带提供便利,避免多路复用镜像的弊端。磁盘缓冲的工作原理,磁盘缓冲的工作原理示例如下:假定 NetBackup客户生成的备份数据的容量如下

30、:星期一:200MB 星期二:300MB 星期三:300MB 星期四:200MB 星期五:500MB 假定 NetBackup 客户每天都将数据备份到磁盘缓冲存储设备上,然后再将数据从磁盘缓冲存储设备转移到最后的存储设备上。客户使用的磁盘缓冲存储设备的容量至少达到500MB,这样才能以容纳一天生成的最大数据容量。如果NetBackup 管理员只要在磁盘缓冲存储设备上保存一天的数据,那么500MB 的磁盘缓冲存储设备就已经足够了,前提条件是能够成功完成重新定位,每天将数据转移到磁带上。如果管理员想在磁盘上保存超过一天的数据,则应对磁盘空间进行调整。第 16 页磁盘缓冲分三个阶段完成:第一阶段:在

31、磁盘缓冲存储设备上创建备份镜像;第二阶段:重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位到目的存储设备上的时间;第三阶段:磁盘上的备份镜像复制到目的存储设备上后,自动取消备份镜像。NetBackup的磁盘缓冲(DISK STAGING)流程示例客户端策略:第一阶段日程第一阶段:NetBackup 策略根据第一阶段策略日程,将客户端数据备份到磁盘缓冲存储设备上。第一阶段磁盘缓冲存储设备策略:第二阶段性重新定位日程第二阶段:磁盘缓冲存储设备(DSSU)日程根据重新定位日程,将数据重新定向到最后的存储设备上目的存储设备第二阶段第三阶段:NetBackup 软件将备份镜像复制到目的存储设备上

32、,然后自动将它从磁第 17 页盘上删除。为进行此操作,NetBackup 软件要使磁盘镜像失效,将目的存储设备上的备份镜像成为主副本。在备份的第一阶段,按策略对客户端进行备份,该策略将磁盘缓冲存储设备作为目的存储设备。应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。第一阶段日程的配置方法与其他备份相似。在磁盘缓冲的第二阶段,将镜像从磁盘缓冲存储设备重新定向到目的存储设备。在磁盘缓冲存储设备的设置过程中,根据配置的重新定位日程来重新定位镜像。这是通过点击磁盘缓冲日程按钮来完成的。只有选择磁盘缓冲存储设备作为存储设备类型时,才能使用该按钮。第三阶段是自动使磁盘镜像失效,使目的存储设备上的镜

33、像成为数据的主副本。这样用户就能释放磁盘空间,以备将来使用。2.1.8Visionary应用服务器、NetCool 报表服务器、IPNET报表服务器容灾在开放系统中,许多产品都能执行备份和恢复功能。然而,能处理现今数据中心的海量数据的产品则凤毛麟角。以往数据中心曾是大型机一统天下,现在则是以大型UNIX、Windows 服务器以及集群为基础,企业在此之上构建并运行和管理关键业务应用。VERITAS NetBackup 独有的核心三层架构,结合先进的介质管理功能,以及卓越的高性能,可以满足最大规模数据中心的需求。NetBackup 主备份服务器(Master Server)是架构的第一层。主备份

34、服务器是所有数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录)的“智能中心”。主备份服务器拥有一个或多个附带的存储设备,可为多台客户端服务器提供数据备份,主备份服务器也可以构成集群以实现高可用性。如果企业在几个地点都有数据或数据密集型应用,比如数据仓库,则可安装介质服务器(Media Server)-即架构的第二层。这样,企业就可以在各个地点,第 18 页通过部署介质服务器直接在本地备份大型应用,同时还可以通过网络备份其它客户端系统。介质服务器既可与主备份服务器或另一台介质服务器共享磁带库,也可使用自己的磁带设备。如果某台介质服务器因故障或其他问题不能正常工作,可将这一台

35、介质服务器的备份任务转移到另一台介质服务器上进行。架构第三层是备份网络中诸多服务器和工作站的客户端代理(Client Agent)。这一层中,要保护的数据量不一定最多,但是需要安装的机器数量通常都是最多的。主备份服务器(第一层)可以对介质服务器(第二层)和客户端(第三层)进行集中管理。2.1.9系统灾难恢复 VERITAS Bare Metal Restore 对于系统中可能存在的IBM AIX,Sun Solaris,HP-UX,等不同操作系统环境,我们通过 VERITAS Bare Metal Restore(裸机恢复)功能,来简化服务器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数

36、据完全丢失时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光盘进行操作系统重新安装,硬盘重新分区,IP 地址重新设置,以及备份软件重新安装等复杂的步骤。BMR 的工作简要流程如下(Main Server,File Server和 Boot Server可合并在备份服务器上):1、BMR 服务器(Main Server)在客户机日常备份的过程中分析客户机的环境并生成恢复策略。2、BMR 服务器 分配启动 服务器(Boot Server)和文 件服务器(File Server).3、当客户机数据丢失时,系统管理员通过网络启动命令启动客户机。4、BMR 服务器驱动启动

37、服务器和文件服务器,使客户机自动获得启动镜像和恢复计划。5、客户机进一步划分硬盘分区并恢复所有数据。第 19 页3核心系统高可用容灾方案实现本章将就该方案的每个细节进行讨论。包括方案的详细讲解,软件的实际配置方法等。通过阅读和理解本章,您将了解VERITAS 解决方案的实现方法,并清楚地知道 VERITAS 解决方案是切实可行的,并且有相关的实施案例和实施经验。我们假设原来就已经按照双机系统设计,那么本方案仅需要增加不同地点间的广域连接,不需要增加其它硬件。软件方面要用VERITAS 高可用软件替换原有的HA/Cluster 软件,新增Volume Manager、VERITAS File S

38、ystem、VERITAS Volume Replicator和 Global Cluster Manager。在介绍功能前,需要强调的的是:VERITAS 提供的是完整的容灾解决方案。各个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。3.1 软件功能解释在这里,每个软件只解释与本方案相关的那部分功能,至于软件的全部功能,请见附录。一、VERITAS Volume Manager(简称 VxVM)将在物理磁盘上建立多个或一个逻辑卷(Volume)。以裸设备的方式使用卷,或在卷上建立文件系统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上

39、。由于数据复制是基于卷的,所以,Volume 是进行复制的基础。二、VERITAS Volume Replicator(简称VVR)负责远程数 据复制。VVR 复制基于Volume 进行。复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件。复制的示意图见图四。第 20 页1)VVR 与 VxVM 完全集成在一起。用VxVM 管理界面和命令统一配置管理;由于VVR 仅仅将 Volume上每次 I/O 的实际数据实时复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小。;2)将各个业务系统中需要进行远程复制的多个或一个卷定义为一个 Replicated V olume G

40、roup(简称 RVG);3)在 Site A 定义一条 RLINK,指向 Site B;在 Site B 也定义一条指向 Site A 的 RLINK。RLINK 是单向的;需要进行复制的两个系统各定义一个指向对方的RLINK;每个 RVG定义一个 RLINK。例如有 Site A 和 Site B 两套系统同时用Site C 的系统作为备份。在Site A 定义一个RVGa,包含需要进行数据复制的卷;在Site B 定义一个RVGb,包含 需要进行数 据复制的 卷;在Site C 定义两个RVG,名为RVGa 和 RVGb,分别作为 Site A RVGa 和 Site B RVGb 的备

41、份。然后,在Site A 定义 RLINK to_c1,指向 Site C;在 Site B 定义 RLINK to_c2,指向Site C;在 Site C 定义两个 RLINK,一个 to_a,指向 Site A,另一个 to_b,指向Site B。图四第 21 页 4)Storage Replicator Log(简称 SRL)是 VVR 中的重要部件。将数据复制各方的某个卷定义为一个SRL。需要复制的数据首先要写入SRL,然后传到异地。VVR 通过 SRL 保证数据复制严格按照写顺序进行,这在异步工作方式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL 中,等系统恢复

42、正常时再将SRL 中的数据按照先进先出的顺序传送到异地。当 SRL满后,VVR 将通过 Data Chang Map(简称 DCM)记录变化过的数据块的块号。VVR 数据流程见图五:图五 5)Data Change Map(简称 DCM)与主节点的RVG 相关,它其中的内容是位图信息,记录某一时间点后修改过的数据块位置。DCM 在正常情况下不使用,在SRL 满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将DCM 中记录的块传送到异地。灾难恢复后的反向复制也用到 DCM。6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数第 22 页据能够及时复制时,

43、工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的 I/O 性能。数据复制根据实际情况,自行在两种工作模式之间切换。如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将复制工作模式定义为异步。由于VVR 的数据复制严格按照I/O 的修改顺序进行,所以,无论在同步还是异步工作方式下,都能保证数据的完整性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发生时正常启动并提供服务。7)后备节点的完全同步,即所谓的”建立基线”。在主节点往后备节点正常复制数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点,也

44、就是说,将双方的RVG进行同步。后备节点的完全同步分为两种情况,一是复制时主节点应用不进行数据更改,二是复制时主节点应用进行数据更改。两种情况下,都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。自 动 同 步 是 指 通 过 网 络 将 数 据 从 主 节 点(Primary)复 制 到 备 份 节 点(Secondary)。方法很简单,只要进行一步操作即可完成。自动同步对带宽要求较高,否则,将无法完成完全同步。自动同步要求RVG 中的每个卷都有 DCM。对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查点结合的方法。在备份开始前,在主节点设置检查点

45、,该检查点记录在SRL 中,然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份完成 后,将检 查点取 消。将备 份的数 据恢复 到 后备节 点 上。然 后 将RLINK 连接挂上,主节点SRL 中记录的的数据传送到后备节点,完成后,两边数据一致,进入正常数据复制状态。用该方法进行数据完全同第 23 页步,要求 SRL 卷大些,等完成后,再将SRL卷通过 Volume Manager在线缩小。8)当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转换。在灾难期间,不进行数据复制,新的主节点用DCM 记录变化数据位置。9)当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换

46、。反向同步有两种情况,一种是在灾难发生时刻,原主节点与灾备节点的数据是同步的(即无未复制的数据);第二种是在灾难发生时刻,原主节点与灾备节点的数据不是完全同步的(即主节点有数据尚未复制到灾备节点)。第二种情况在反向同步开始时第一步首先要进行重置,指将原主节点SRL 和 DCM 中数据(这些数据在灾难发生时尚未来得及传送)的位置信息修改当前主节点(即原后备节点)的DCM。然后,将DCM 中指向的数据全部传送到原主节点。而第一种情况的话,直接进行第二步工作。传送完成后,将当前主节点的数据库和应用停止,将双方角色复原,并在原主节点提供正常服务。10)脱机处理。通过使用VVR 的 In-Band Co

47、ntrol(IBC)消息、Snapshot、以及Volume Manager(VxVM)的 FastResync(简称 FR,即快速同步)功能,可以实现数据的脱机处理。脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据进行处理、重镜像等几个过程组成。11)双收条(双重确认)机制。指后备节点对复制数据的接收确认有两个阶段。第一个确认当后备节点收到数据后发出;第二个确认当后备节点数据成功写入硬盘后发出。当主节点收到第二个确认后,将SRL 中的相应数据清空。第 24 页三、VERITAS Cluster Server(简称 V

48、CS)是用于本地容灾的集群软件,支持多达32 个节点的应用级切换,保证本地业务系统的软硬件高可用性。VCS 以其出色的可靠性和易管理性闻名。VCS 的功能特点请见附录。在本方案中,VCS 主要负责以下功能:1)VCS 负责监控和管理硬件系统和操作系统,当出现故障时进行切换。2)通过数据库代理(Agent)监控和管理数据库系统,当出现故障时进行切换。3)通过 API 或脚本编写针对性客户化应用代理,监控和管理应用系统,当出现故障时进行切换。4)通过 Replicator 代理监控和管理数据复制过程,当主服务器数据复制发生故障时,自动将数据复制工作切换到后备服务器,保证数据复 制过程 的连 续性。

49、这 点对 于容 灾系 统非 常 重要。该 代理 充分 说 明VERITAS 提供的是完整的容灾解决方案。5)主节点和备份节点的VCS 集群系统都在 Global Cluster Manager的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM 在VCS 中以两个服务组(指GCM Master 和 GCM Slave)的形式存在。四、Global Cluster Server(简称GCM)可以称为Cluster s Cluster(集群的集群)。它负责对多个不同地点的多达32 个集群系统进行监控和管理,在发生严重灾难时,进行site的切换(即应用的远程切换)。GCM Console为

50、Web界面,通过浏览器管理各个Cluster系统,并在管理界面中主动控制或响应远程切换。3.2 安装、配置过程在硬件和操作系统环境准备好后,整个方案的实际安装、配置及工作过程如第 25 页下。详细的配置命令和配置文件见附录。一、安装 VERITAS Volume Manager(VxVM)和 File System(VxFS)。将服务器本地硬盘的其中一个分区(或整个硬盘)作为rootdg。将磁盘阵列中所有磁盘用Volume Manager 管理。创建一个disk group,包括涉及的磁盘,并在这些磁盘上划分出需要的卷,包括用于SRL 的卷。如果卷上需要文件系统,使用VxFS。将数据库和应用系

51、统都安装在共享的磁盘阵列卷中。二、由于 VVR 与 VxVM 集成在一起,所以无需另外安装。1)为需要复制的卷增加DCM。2)创建 SRL。3)定义 RLINK,指向备份节点。4)定义 RVG,将需要进行远程复制的卷(包括 SRL 卷)都定义到一个RVG 中,并与 RLINK 联合绑定。5)进行数据复制。三、安装 VCS、Oracle或 Sybase代理、客户化应用代理和VVR 代理。安装完成后,配置心跳线,然后对各个服务组(Service Group)中涉及的资 源进行定义。进行本地切换测试,优化有关参数。四、安装 GCM。安装完成后,在VCS 的服务组(Service Group)中增加了

52、GCM Master 和 GCM Slave。对其进行配置。定义GCM 响应的事件和相应的处理动作。用手工模式进行异地容灾切换测试,并调优化有关参数。五、进行全系统联调,测试各种情况下的系统工作情况,并进一步优化有关参数。第 26 页3.3 工作过程为方便论述,本节模拟地点A 和 B,两地各有一套建立在VCS 双节点集群上的业务系统,以 B地点的系统作为A 地点的备份。切换示意图见图六。一、正常情况下:1)业务系统运行在地点A,包括数据库实例、有关的文件、数据库数据、应用软件。A 节点对外提供服务。2)A 节点所有的有关的数据通过VVR 实时复制到 B 节点。3)两地的 VCS 对的各自节点内

53、的两台服务器的主机情况、数据库服务、应用软件进行实时监控和管理,其中,VCS 还对 VVR 数据复制服务进行监控。4)GCM 监控两地 Cluster系统的运行。二、当 A 地点的主服务器发生硬件或软件故障,导致主服务器无法提供正常服务:1)VCS 进行本地切换,将主服务器的数据库服务、应用软件、VVR 数据复制服务切换到本地后备节点。2)整个系统运行在本地后备节点,包括VVR 数据复制服务,由后备服务器图六第 27 页提供对外服务和数据复制服务。3)GCM 将监控到该切换事件的发生。4)如果仅仅是主服务器数据复制服务发生故障,可以不进行切换,只需将复制服务修复并正常运行。三、如果 A 地点的

54、主服务器恢复正常,整个系统将重新运行在正常情况下。四、如果在情况二的状态下,A 地点的后备服务器也发生硬件或软件故障,整个A地点无法正常提供服务:1)GCM 将监控到该严重灾难的发生,将对接收到的Site A down事件进行处理:发出严重告警,并在管理界面上弹出服务灾难性切换(及服务切换到远程地点)等待确认画面。2)在有关人员确认后,在GCM 切换等待确认画面上按确认按钮,将进行地点间的容灾切换。3)A 地点的业务将在B 地点正常提供服务。4)数据复制暂停。5)Site B 的 VVR 将从 Secondary变成 New Primary,使用 DCM 记录所有变化的数据块。五、如果 A、B

55、地点间网络发生故障:1)VVR 心跳检测将发现该故障,A 地点 VVR 将根据事先的配置进行处理。我们的建议是 VVR 将网络故障期间所有数据的更改记录在SRL。2)如果在一段较长时间内,网络故障无法恢复。当VVR 的 SRL 卷接近满时,VVR 将使用 DCM,记录变化的数据块位图。3)在网络故障发生后,GCM 将探测到,并对 Network Down 事件进行处理:向有关管理员发出告警。六、如果 A、B地点间网络在短时间内恢复正常。第 28 页1)VVR 将把 A 的 SRL 中积累的数据传送到B。2)VVR 处于正常工作状态。3)GCM 处于正常工作状态。七、如果 A、B地点间网络在很长

56、时间内仍无法恢复正常:1)VVR 停止远程数据复制。2)GCM 无法对两地间的Cluster运行进行监控。八、灾难复原。当A 地点的系统恢复正常后,需要进行整个系统的回迁。数据反向复制时只复制灾难期间变化的数据而不是所有的数据,这是本方案优势之一。1)在灾难期间,B 地点是 VVR 的 New Primary,B 的 DCM 记录所有变化的数据块。2)A 系统正常后,VVR 重新建立与B 节点的RLINK 连接,并自动变成Pseudo Secondary(伪后备节点)。3)GCM 发现 A、B 地点 Cluster恢复正常,对它们进行正常管理。以下过程将在脚本中自动完成。4)进 行反 向 同

57、步的 第一 步 是 将 A 节点 的 Pseudo Secondary 状态 转 成Secondary状态。5)第二步将进行 A 的 SRL 和 DCM 的重置(Replay),修改 B的 DCM。因为在 A 节点发生灾难时,有可能A 的 SRL 中有没来得及进行传送得数据,甚至DCM 中标记的数据块没来得及进行传送。也就是说,A 中有一些本地已经修改,而B 还未修改的数据。所以,要保持A、B 数据的一致性,一定要首先对这些数据进行处理。处理方法成为重置(Replay)。重置将把A 节点 SRL 中数据或 DCM 中标记的数据位图信息传送到B 节点。B 节点将进行判断,根据数据块是否有新的修改

58、,对 DCM 进行置位。6)重置完成后,将进行数据的反向同步,将灾难期间B 节点变化的数据(和需要 A 节点重置的数据)传送到A。7)以上的过程中,B的数据库和应用都处于正常运行状态。第 29 页8)当反向同步完成后,数据库和应用将停止运行。9)GCM 控制进行整个系统的反向切换。10)A 节点重新成为 VVR 的 Primary,进行正常复制。11)A 节点整个业务系统恢复正常运行。3.4 方案分析本章将就移动公司综合结算需求书中提出的要求分析方案。通过分析,说明方案符合需求,并进一步讲解方案的细节。3.1.1有关数据的量化分析及结果涉及数据库的系统业务,除了对数据库内容的更改进行实时数据复

59、制外,还要复制有关的系统文件,例如环境配置信息、数据库环境配置信息。在带宽允许的情况下,我们将对整个数据库有关的内容,包括数据库安装软件、数据库数据等等都实时复制到灾备节点。当发生灾难时,恢复的时间会很短。对于 VVR 对数据库内容的复制,就oracle 为例,有两种方法:1)仅复制 Archive Log 和 Online Redo Log。该方法的优点是复制数据量小,对带宽要求小,而且比数据库本身的复制功能更能保持数据一致性,因为数据库本身的复制仅复制Archive Log。缺点是后备节点要进行Log 中的交易重提交,当发生灾难后,后备节点可能需要较长时间才能提供正常服务。2)数据库的内容

60、和Log 都进行复制。该方法的优点是更好地保持数据的一致性,而且发生灾难时,后备系统恢复正常服务的时间较短。缺点是复制的数据量较大,对带宽的要求较高。根据计算,由于带宽允许,所以,将进行数据库内容和Log 的复制。第 30 页二、SRL 容量计算SRL(即数据复制的日志区)的容量计算,将视实际情况(如磁盘实际容量、网络平均故障修复时间、变化数据量等)定。例如一般情况下,网络故障在8 小时内修复,则将 SRL 的容量定为 8 小时内数据变化量再加上一定的冗余。三、结论如果带宽充裕,可以使用同步/异步自适应的工作方式;如果带宽不是很充裕(例如 1-4Mbits/s),为了保证业务系统的性能,建议V

61、VR 工作在异步方式下。3.1.2方案小结以下说明本方案的优势。一、本方案能够支持手动/自动信令容灾方案,用户可以根据实际需要进行自由选择。但在实际情况中,由于发生重大灾难时业务异地切换属于非常严重的事故,所以我们建议该过程前用户进行电话确认,然后在GCM 界面中按下切换确认按钮进行切换。二、当本地主系统恢复正常后,需要进行反向数据同步、应用切换等工作,该工作需要由操作人员在系统较空闲时进行。工作过程很简单。三、通过 SRL、DCM、严格的按写顺序传送、双收条确认、反向切换时的重置等技术的使用,本方案可以最大限度地保证主、备节点的数据一致性。四、本方案支持 1+1、N+1 和节点互备方式,满足

62、用户的不同需求。第 31 页五、本方案如果不考虑带宽,节点间没有距离的限制。由于VVR 的数据传递是基于卷,所以每次传送的数据量基本就是每次系统I/O 的数据大小。这样可以得到最大的带宽利用率。六、基线建立,需要主备节点的数据完全同步。完全同步在应用运行期间也可以完成。可以采用自动同步方式或使用备份和检查点(Check Point)结合的方法。七、至于基线建立过程、日常复制过程、故障切换过程和故障恢复过程对主机性能的影响,由于对不同的配置、不同的情况将有很大的区别,所以,很难给出具体的数值。以我们在以往实施中的经验,如果采用异步复制方式,对整个系统的影响,在 5%左右。第 32 页4网管全系统

63、配置图及各分系统配置图系统整体业务容灾框图如下:数据流向图如下图所示:第 33 页4.1IPNET流量服务器和 NetCool 汇总服务器软件配置(每节点)1。VERITAS Volume Replicator 4.0 2。VERITAS Cluster Server 4.0 3。VERITAS Cluster Server Application Agent 4。VERITAS Global Cluster Manager 4.0 5。VERITAS NetBackup Client 5.0 6。VERITAS BMR 4.7 第 34 页4.2NetCool 网管服务器/PM服务器/业务网

64、管服务器/Precision服务器软件配置(每节点)1。VERITAS Cluster Server 4.0 2。VERITAS Cluster Server Application Agent 3。VERITAS Global Cluster Manager 4.0 4。VERITAS NetBackup Server/Client 5.0 5。VERITAS BMR 4.7 第 35 页4.3IPNET和 NetCool 报表服务器软件配置(每节点)1。VERITAS NetBackup SClient 5.0 4.4总结说明以上各分系统的容灾方案仅体现在技术实现及成本的区别,实际上,作为

65、一个完整的应用级容灾方案提供厂商,VERITAS 的上述所有方案均可以在统一的仪表盘界面下实现管理和控制。并提供应用级端到端的管理功能。第 36 页5附 录一、VERITAS 公司简介作为企业级应用存储管理软件的领先提供商,VERITAS Software(Nasdaq:VRTS)公司专门提供集成的跨平台存储管理软件解决方案,用来保证关键业务信息的连续可靠性。VERITAS 公司于1982 年成立于加利福尼亚的Mountain View,现拥有员工3500 余名,在全球多个国家设立分公司或办事处。公司2000财年的收入为 12 亿美元,市值700 亿美元,稳座全球五大软件厂商之一的宝座。在过去

66、的十年中,VERITAS Software 己成为发展最快、规模最大的存储管理软件公司,它连续四年被商业周刊杂志评为“发展最强劲的公司”,在财富从杂志的“发展最快的100 家公司”排名(1999年 9 月 6 日)中名列第八,并于1999年 1 月成为 Nasdaq-100指数的一部分。VERITAS Software 公司是应用存储管理的事实标准,世界领先的服务器和操作系统中有60使用它的软件。为保证提供集成的一揽子软件存储管理解决方案,VERITAS Software 与业界所有大型企业都建立了战略合作伙伴关系。公司的OEM客户和战略联盟包括从部件厂商到高端UNIX 领域的主机厂商。VERITAS Software 为各种规模的企业提供关键业务信息的连续可用性,是客户可以信赖的企业级应用存储管理软件解决方案供应商,对客户来说,VERITAS 即“可靠”的代名词。VERlTAS 是世界唯一一家能提供多种企业级的存储管理软件的公司,为用户提供端到端的多平台、混合计算的存储解决方案。从数据产生到数据保存的整个过程中,VERITAS 提供的软件产品能够确保系统数据存储的高性能、高扩展性和高

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!