阵列双活数据中心解决方案

上传人:zh****u6 文档编号:86283074 上传时间:2022-05-07 格式:DOC 页数:105 大小:15.61MB
收藏 版权申诉 举报 下载
阵列双活数据中心解决方案_第1页
第1页 / 共105页
阵列双活数据中心解决方案_第2页
第2页 / 共105页
阵列双活数据中心解决方案_第3页
第3页 / 共105页
资源描述:

《阵列双活数据中心解决方案》由会员分享,可在线阅读,更多相关《阵列双活数据中心解决方案(105页珍藏版)》请在装配图网上搜索。

1、华为双活数据中心解决方案技术建议书资料编码阵列双活华为双活数据中心解决方案技术建议书2016年3月11日华为技术有限公司版权所有 华为技术有限公司 2014。 保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级

2、或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼 邮编:518129网址:客户服务邮箱:客户服务电话:0755-28560000 4008302118客户服务传真:0755-285601112022-5-7华为保密信息,未经授权禁止扩散第11页, 共105页目 录1 适用场景(供参考,实际使用删除)11.1 文档适用场景说明11.2 版本更新12 概述12.1 项目背景22.1.1 项目概述22.1.2 建设总体要求22.2 需求分析22.2.1 需求分析3

3、2.2.2 现状分析32.2.3 建设目标(适用于升级改造)52.2.4 方案设计原则63 存储双活架构选择63.1 存储双活架构选择73.1.1 存储双活架构描述73.1.2 业界存储双活技术路线73.1.3 存储双活架构对比74 系统方案设计94.1 整体架构设计104.1.1 方案描述104.1.2 存储双活架构的要求114.2 存储双活方案详细设计124.2.1 虚拟化存储双活设计134.2.2 双活读策略设计134.2.3 优选路径设计144.2.4 虚拟机跨数据中心vMotion设计(可选)144.2.5 “逃生”功能设计154.2.6 镜像快速恢复功能设计154.2.7 存储双活

4、方案仲裁设计154.2.8 跨数据中心网络设计174.3 存储双活方案应用配置建议184.3.1 VMware配置建议184.3.2 FusionSphere配置建议184.3.3 Oracle RAC配置建议194.4 华为存储双活方案优势194.5 存储双活方案故障切换与恢复214.5.1 故障切换流程214.5.2 故障恢复流程295 方案配置315.1 方案配置列表325.1.1 软硬件配置列表325.1.2 服务配置列表326 关键技术336.1 网络层解决方案336.1.1 服务器负载均衡技术(SLB)336.1.2 全局负载均衡(GSLB)376.1.3 DWDM416.2 存储

5、层解决方案426.2.1 HyperMetro技术426.3 主机层解决方案486.3.1 VMWare容灾技术486.4 数据库层解决方案506.4.1 Oracle RAC技术506.5 应用层解决方案596.5.1 Weblogic集群技术596.6 管理层解决方案676.6.1 灾备决策支持平台方案677 容灾相关产品及规格787.1 Tecal RH5885 V3机架服务器787.1.1 功能和价值797.1.2 规格参数807.2 OceanStor V3系列存储807.2.1 功能和价值807.2.2 规格参数817.3 FusionSphere云操作系统817.3.1 Fusi

6、onCompute虚拟化827.3.2 FusionManager云管理847.4 SNS系列867.4.1 功能和价值867.4.2 规格参数878 缩略语表881 适用场景(供参考,实际使用删除)1.1 文档适用场景说明本文档适用以下场景:1) 同城容灾,生产中心和灾备中心之间的容灾链路距离100km;2) 要求RPO=0;3) RTO0,部件故障或生产中心故障,能自动切换;4) 生产中心和灾备中心之间有裸光纤网络。5) 适用VIS 4节点与8节点双活(2个4节点)环境注:以下蓝色字体根据具体项目情况替换或删除。1.2 版本更新日期修订版本描述作者2014-03-28V1.0第一次发布,未

7、增加网络双活部分,需要待网络解决方案的同事补充;未增加FusionSphere双活部分,待测试有初步结果后再增加。陈晓丽2014-05-04V1.1根据评审意见进行修改陈晓丽2014-05-30V2.0增加FusionSphere双活部分,统一术语陈晓丽2014-07-30V3.0增加双活8节点内容陈晓丽2014-10-29V4.0修改8节点的描述陈晓丽2 概述2.1 项目背景2.1.1 项目概述XX数据中心的XX生产平台,是全局的计算中心、存储中心、备份中心,承载着XX的核心业务系统,随着业务的快速发展,对业务连续性的要求也越来越高。此次项目建设以XX的2个数据中心为2个物理站点,并考虑异地

8、一处作为异地站点,构建跨双数据中心(XX公里)实现双活站点的存储虚拟化平台。该平台主要为各类应用业务提供高可用性基础保障,为构建虚拟数据中心提供存储资源和服务,保障数据的一致性和完整性。2.1.2 建设总体要求1) 云数据中心建设云数据中心建设是建设云平台的核心与关键,虚拟数据中心负责按需提供满足要求的运算处理资源、存储资源、网络资源等IT基础架构服务。2) “站点双活+异地数据备份”灾备体系建设数据中心提供满足安全、高效管理和保障业务连续性的功能。通过“站点双活+异地数据备份”方案,实现不同灾难场景下的业务连续性要求。3) 统一管理平台的需求实现对双活数据中心中涉及的设备的统一管理,涵盖日常

9、管理、资源分配、性能监控、日志审计等内容。2.2 需求分析2.2.1 需求分析云数据中心建设虚拟化是云平台建设的基础。通过虚拟化技术进行整合,形成一个对外提供计算资源为主的池化管理(包括服务器池、存储池、网络池等),同时提供运行环境等基础服务。服务器虚拟化能够消除XX局原有业务系统的“一台服务器运行一个应用程序”模式下的效率低下现象,在这种模式下,大多数服务器远未得到充分利用。借助服务器虚拟化技术,一台服务器可用作多个“虚拟机”,而且每个虚拟机都可以在不同的环境下运行,例如 Windows、Linux或Apache。因此,采用服务器虚拟化能够将多台服务器整合到更少的物理设备上,从而有助于减少空

10、间、能耗以及管理需求。通过服务器虚拟化平台的建设,可以将现有的业务系统逐步迁移到服务器虚拟化平台,并通过双活数据中心帮助增强业务连续性并提供全面的数据保护,以便管道局能够获得连续的应用程序可用性以及跨两个物理站点的自动灾难恢复能力。网络虚拟化通过各种网络技术,将不同的应用相互隔离,使得不同用户在同一网络上不受干扰地访问各自不同应用。在交换网络中可以通过虚拟局域网(VLAN)技术来区分不同业务网段,在路由环境下可以综合使用VLAN、MPLS-VPN、Multi-VRF 等技术,实现对网络访问的隔离。在数据中心内部,不同逻辑网络对安全策略有着各自独立的要求,可通过虚拟化技术将一台安全设备分割成若干

11、逻辑安全设备,供各逻辑网络使用。存储虚拟化是指利用虚拟化技术,统一整合管理FC SAN,IP SAN等多种存储设备,形成统一的资源池供上层业务使用,屏蔽不同存储之间的差异。“站点双活+异地数据备份”灾备体系建设传统的数据中心容灾已经从主备数据中心开始向双活数据中心过渡。主备数据中心的建设模式可以在很大程度上提升业务连续性。用户所有的业务系统都在主数据中心运行,而在备数据中心为业务系统提供冷备或热备,当主数据中心的应用出现故障时,可以将单个应用或数据中心整体切换到灾备数据中心。但这种模式造成了备数据中心常年处于闲置状态而造成资源浪费。而通过资源整合,可以极大的提升资源利用率,同时双活数据中心的服

12、务能力是双倍的。2.2.2 现状分析目前XX局已经建成资产财务一体化平台、人力资源系统、电子商务平台、综合数据库系统、数据存储平台、办公自动化系统等信息系统。其中,核心应用系统包括资产财务一体化平台、综合数据库系统、OA系统等应用系统。业务系统组网图如下:应用系统现状(1)资产财务管理一体化资产财务管理一体化是XX局核心应用系统,涉及XX局财务、资产、物资、检修、运行等工作,部署方式为集中式部署,业务窗口时间为7*24小时。资产财务管理一体化的关联系统是电子商务平台,系统之间有业务流程和数据交换。(2)综合数据库综合数据库包括综合统计和内主页等系统,涉及XX局下属所有电厂的数据上报和信息访问。

13、(3)总部OA系统XX局OA系统采用Lotus Domino平台,包括OA办公、公文审批和内网邮件等。XX局OA系统为分布式部署(从一级到三级)。总部OA系统与XX局下属单位OA系统之间主要为收发公文。各应用系统IT现状如下表所示:系统序号应用系统服务器数量数据量(GB)数据增量(GB)存储方式操作系统数据库虚拟化1XX业务平台2台P780小机40005GB/天DS8100AIX 6.1Oracle11gR2 RAC无2XX系统2台IBM X36501002G/天RDM(裸设备映射)windows 2008R2无VMware 5.5网络系统现状当前已建设同城灾备中心,租用运营商机房,与生产中心

14、距离约20km。中间链路租用运营商裸光纤链路,并自购5台中兴M721 DWDM设备,其中A系统在生产中心使用两台DWDM设备实现冗余,B系统在生产中心使用1台DWDM设备,灾备中心放置2台DWDM设备。生产中心采购2台思科Nexus7010作为核心交换机,同城灾备中心没有核心交换机。网络现状如下图所示:现状风险分析在XX局以往的业务系统架构中,核心业务系统采用小机,其他非关键业务采用VMware虚拟化架构,核心数据库系统与业务均存放在XX存储上,整个业务系统未进行高可用保护,业务系统存在单点故障风险。且XX存储系统面临即将过保的问题,如何平滑进行存储系统的切换是必须要考虑的问题。2.2.3 建

15、设目标(适用于升级改造)本次项目建设的关键目标有三个:(1)原数据中心的业务逐步迁移到新数据中心(2)新数据中心与原数据中心升级为双活数据中心架构(3)建设异地灾备中心2.2.4 方案设计原则通过对用户需求的了解,结合XX应用系统的业务特点,方案主要遵循以下原则进行设计:高性能:充分考虑容灾系统的处理能力,使其整个系统在国内三到五年内保持领先的水平,并具有长足的发展能力,以适应未来灾备技术的发展。高可靠性:灾备系统是为了进一步增强关键业务数据的抵御灾难能力,所以在灾备系统设计阶段需要充分考虑其自身的稳定性和可靠性,从而保障关键数据能够持续、稳定的传送到异地灾备中心。当出现任何问题时都能够通过灾

16、备数据得以恢复。标准化:所有灾备解决方案都应符合有关国内及国际标准以保证不同品牌灾备解决方案之间的互操作性和系统的开放性。可扩展性:当前灾备系统的设计不但应满足当前需要,还需充分考虑业务的发展,同时便于向更新技术的升级与衔接,保护当前投资。可维护性:整个灾备系统的设计,充分考虑易于管理,易于维护,操作简单,易学,易用,便于进行配置,发现故障。安全性:由于灾备系统承载的是关键业务系统的数据备份,所以设计需要考虑传输、存放等灾备整个过程中的安全性。高性价比:灾备系统建设首先要从系统的实用性角度出发,满足不同的业务系统的实际需要和前瞻性的同时,选择最高性价比的设计方案。3 存储双活架构选择3.1 存

17、储双活架构选择3.1.1 存储双活架构描述双活数据中心的定义是指两个数据中心共享存储、网络以及服务器资源,两个数据中心同时对外提供服务,整个系统具有业务负载均衡和自动故障切换功能。存储双活作为整个系统的核心基础架构平台,主要解决以下两个核心问题。一是如何在两个数据中心间实现数据实时同步,从而保证异常情况下,零数据丢失(RPO=0)。二是如何实现存储资源的虚拟化,提供可同时被两个数据中心主机访问的存储共享卷,从而实现主机应用集群的跨站点部署,保证异常情况下,应用的自动切换(RTO0)。 3.1.2 业界存储双活技术路线当前,存储业务通常有以下两种实现存储双活方案的架构。一种是基于专业的虚拟化存储

18、设备来实现;一种是基于磁盘阵列的同步复制技术,配合自动化的复制切换软件来实现。由于两种架构采用了不同的技术方案,因此,在方案可靠性、业务连续性以及可扩展性方面都存在一定差异。3.1.3 存储双活架构对比方案可靠性基于虚拟化存储的双活方案:通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备,站点间和站点内都不存在单点故障的风险。基于磁盘阵列同步复制技术的双活方案:实际上采用的是Stretched架构,即将一台阵列的两个控制器部署在两个站点,每站点内部只有一个控制器,存在单点故障风险。数据实时同步技术及性能影响基于虚拟化存储的双活方案:采用存储虚拟化设备的卷镜像技术实现两站点间的数据实时同

19、步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入这两个存储设备,保持数据实时一致。其中任何一个存储设备故障,虚拟卷仍能提供正常的IO读写能力,主机业务不受影响。待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。基于磁盘阵列同步复制技术的双活方案:基于磁盘阵列同步复制技术的双活方案是通过建立主存储设备复制到从存储设备的同步复制关系,在从存储设备生成一个实时一致的数据副本来实现的。同步复制对上层主机而言,两个数据中心的存储体现为两个不同的LUN。由于同步复制的从存储设备不能被主机访问,因此,当主

20、站点存储设备发生故障,需要配合上层的自动切换软件实现业务的自动切换。恢复业务需要先切换复制关系,将从存储上的副本变为可读写,并改变主机的存储访问路径,切换时间长。为了保证两个数据中心存储的数据实时一致,同步复制与虚拟化卷镜像的写操作都需要等待两端存储同时写成功之后再返回给主机“写成功”。因此,两种架构都将对IO写操作带来一定的时延增加,必须提供低时延的同城网络,以减小对写时延的影响。存储卷的双活访问特性基于虚拟化存储的双活方案:基于跨数据中心的双活虚拟化存储平台,提供可供两数据中心主机同时进行读写访问的共享存储卷。主机访问请求由本数据中心所在的虚拟化存储引擎响应,无需跨越同城网络访问另一数据中

21、心的虚拟化存储引擎。基于磁盘阵列同步复制技术的双活方案:将一台阵列的两个控制器部署在两个数据中心,且两个控制器处于主备模式,备控制器无法被主机访问,只能提供一条备用的存储路径,不是真正的双活。两个数据中心的主机都只能通过访问其中一个控制器来进行IO读写,不仅增长了主机IO的路径,而且增加了主控制器的业务压力,影响系统性能。方案业务连续性能力基于虚拟化存储的双活方案:同一个共享的存储卷可经过两个数据中心的任意节点被主机访问。其中一个数据中心的虚拟化引擎故障、主机故障,甚至整个站点故障时,都无需对存储进行切换,另一数据中心的虚拟化引擎可继续为主机提供访问。故障修复后,无需中断主机访问即可恢复故障前

22、运行状态。基于磁盘阵列同步复制技术的双活方案:由于备控制器无法被主机访问,当发生主控制器故障或站点级故障时,需要先切换同步复制关系,再切换主机访问路径,来使存活站点的控制器强行接管故障站点控制器的工作。切换流程复制,部分场景甚至需要手工执行命令来强行切换控制器和访问路径。故障修复后,需要中断业务运行来恢复到故障前状态。弹性可扩展基于虚拟化存储的双活方案:通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备。因此,随着业务的增长,方案能够支持引擎的横向扩展,且新增引擎与现有引擎构成一个统一的虚拟化存储集群,提供统一的IO处理能力。基于磁盘阵列同步复制技术的双活方案:通常只支持双控,不具备控

23、制器的横向扩展能力。无法实现存储资源的整合与共享,不能支持弹性可扩展。4 系统方案设计4.1 整体架构设计4.1.1 方案描述存储双活方案作为XX业务的核心基础架构,其架构的选择决定了整个系统是否可靠高可用、安全可信赖、弹性可扩展。此次方案建设,考虑到XX局的上述需求,华为建议采用基于专业的虚拟化存储设备来构建高可用、高性能、可扩展的存储双活方案。XX局两地三中心容灾系统建设包括同城双活中心:XX数据中心与XX数据中心以及异地灾备中心三中心。整体的建设包括:双活容灾系统建设、异地灾备系统建设。同城双活容灾建设华为存储双活方案采用OceanStor VIS6600T系列产品(以下简称VIS),实

24、现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。两个数据中心分别部署多台Oracle数据库服务器和虚拟机服务器,以及OceanStor VIS6600T和磁盘阵列等设备。整个双活系统分为存储层、前端网络层与应用层与管理层。存储层,在某某数据中心A和某某数据中心B各部署一台VIS6600T,组成一个VIS集群,为两数据中心主机业务同时提供读写服务。支持扩展至8节点。同时,在某某数据中心A和某某数据中心B配置同等级和同容量的磁盘阵列。为了提升热点数据的存储性能,使高价值硬盘得以更

25、充分的利用,配置不同类型的硬盘:SAS、NL-SAS、SSD以合理分配资源;通过华为存储提供的SmartTier功能对热点数据进行持续监控并从机械硬盘迁移到SSD中,进一步提升系统性能。两个数据中心的磁盘阵列都由VIS集群接管,利用VIS镜像技术对两中心的磁盘阵列做镜像冗余配置,实现两个数据中心存储数据实时镜像,互为冗余。任意数据中心故障,数据零丢失。网络层,数据中心之间集群IP心跳和FC数据传输网络都采用裸光纤直连,传递控制信息、配置信息和数据同步,满足双活数据中心网络时延要求。应用层,两个数据中心的Oracle服务器构成一个Extended RAC集群,提供跨数据中心的自动负载均衡和自动故

26、障转移功能。两个数据中心的虚拟机服务器构成一个集群,提供跨数据中心的虚拟化业务连续性和移动性。为了实现双活数据中心存储设备的统一管理,建议部署统一容灾管理软件,通过华为统一容灾管理软件实现双活数据中心的可视化管理,并通过管理软件直观的展示双活业务的物理拓扑。建议将管理软件部署于XX数据中心的物理服务器。异地灾备建设对于XX业务,在建设双活数据中心的基础上,再进行数据的远程容灾。如此一来,XX核心业务数据总共保留了三份,更高程度保证了数据安全性。整体的方案架构图如下图所示(根据实际项目情况修改):XX数据中心和XX数据中心分别部署多台服务器、1台VIS、X台磁盘阵列、至少2台可提供10GE与GE

27、链路的冗余IP交换机以及2台FC交换机。其中X台服务器组成多节点的Oracle RAC集群与VMware集群、FusionSphere集群,对外提供服务;2台VIS组成4节点的VIS集群,统一接管 2个数据中心的磁盘阵列,构建跨站点的存储资源池;两个数据中心之间利用VIS镜像功能同步数据。第三方仲裁站点使用华为提供的第三方仲裁存储单元,使用IP或FC网络连接到XX数据中心和XX数据中心的VIS设备。每个数据中心的一台XX阵列和第三方仲裁存储单元各提供一个1GB的 LUN,共3块仲裁盘,供VIS仲裁使用。4.1.2 存储双活架构的要求方案对同城网络的要求采用FC链路实现同城双数据中心间的数据实时

28、同步,采用二层以太网络实现双数据中心间的存储虚拟化集群(VIS)以及主机应用集群的心跳链路通信。为降低数据双写对业务系统的影响,建议同城链路的时延在1ms以内。同城链路带宽需求,与需要在两数据中心间同步的数据量相关,要求链路带宽大于业务系统高峰期的数据写带宽。方案对仲裁链路的要求为保证各种异常情况下,存储虚拟化集群能够进行仲裁,业界存储双活方案都需要设计第三方仲裁站点,以保证异常情况下的业务连续性。两个双活数据中心与第三方仲裁站点间的链路可选择FC或IP网络,大大增加了方案的灵活性,有利于降低方案的整体成本。应用系统对时延的要求双活数据中心的建设不仅是存储一个层面的双活部署,需要端到端地进行考

29、虑。尤为重要的是,当前双数据中心的网络时延是否能满足应用系统对网络时延的要求?华为提供了一系列的测试方法对XX数据中心与XX数据中心的网络链路进行检测确认。以下罗列了双活数据中心解决方案的两种典型应用场景对时延的建议:n Oracle应用时延建议类型 性能好 性能可接受 性能差 db file sequential read 10ms 20ms db file parallel write 10ms 15ms log file parallel write 5ms 15ms n VMware应用时延l 站点之间最大支持VMware ESXi管理网络的网络时延是往返10ms RTT 。p vMo

30、tion标准版和企业版要求5ms RTT。 p vMotion中10ms RTT的延时只有在具有VMware vSphere Enterprise Plus版本许可中才支持,这个版本许可包括Metro vMotion功能。l ESXi vMotion的网络需要最少622Mbps的网络带宽,并且有冗余链路。n FusionSphere应用时延l 生产站点与容灾站点间距离要在100公里以内,站点间需要租赁L1专线,两个站点间环回时延1ms。4.2 存储双活方案详细设计4.2.1 虚拟化存储双活设计跨数据中心部署的OceanStor VIS6600T虚拟化存储集群提供可被两数据中心主机并发访问的共享

31、双活卷,连接到其任何节点上的主机都可以访问同一个虚拟卷,并像访问本地存储一样对VIS提供的虚拟卷进行读写。通过VIS的虚拟化功能,实现对各种磁盘阵列的统一接管,将数据中心里不同类型的磁盘阵列资源池化,实现存储资源的整合和优化,提高资源利用率。同时通过VIS虚拟化卷镜像功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致。具体的IO读写流程如下图所示。VIS虚拟化卷镜像原理及IO流程VIS镜像的写I/O流程如下:1) 写请求到镜像卷;2) 镜像卷将请求复制为两份下发到两中心的镜像

32、数据盘;3) 镜像数据盘返回写操作完成;4) 镜像卷返回写I/O操作完成。4.2.2 双活读策略设计华为VIS具备灵活的读取策略:循环读、优选读、基于站点读(Site Read)。针对双活数据中心场景,设计了“Site Read”模式,以避免虚拟化引擎跨数据中心读取数据,提升方案整体性能。其读I/O流程如下:1) 读请求到镜像卷;2) 镜像卷根据策略下发请求到与虚拟化引擎在同一个数据中心的镜像数据盘读取数据;3) 镜像数据盘返回读数据;4) 镜像卷返回读数据。其中任何一个存储设备故障,虚拟卷选取正常的存储设备响应主机I/O,主机业务不受影响。并且采用差异位图记录故障期间数据的变化情况,待存储设

33、备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。4.2.3 优选路径设计华为多路径软件UltraPath支持双活的优选路径模式。为了避免跨数据中心进行I/O处理而带来时延的增加,UltraPath将优先使用本数据中心VIS节点下发I/O的路径,只有当本数据中心节点路径故障后才使用远端数据中心VIS节点的路径。说明:当前FusionSphere不支持优选路径功能。(蓝色字体部分实际使用时不对客户体现)4.2.4 虚拟机跨数据中心vMotion设计(可选)通过Fibre Channel、iSCSI 存储区域网络 (SAN)和数据中心间网络,

34、虚拟化存储集群为两个数据中心主机提供共享访问的镜像卷,构建VMware ESX vMotion over Distance,可在数据中心之间实时迁移在线运行的虚拟机,可避免停机、确保业务连续性以及事务处理的完整性,使XX局可以在执行硬件维护时无需安排停机时间及中断业务操作。同时,VMware ESX vMotion over Distance还可以使两数据中心资源池内的虚拟机持续进行自动优化,最大程度地提高硬件的利用率、灵活性及可用性。4.2.5 “逃生”功能设计华为VIS虚拟化智能存储具备“逃生”功能,对所接管磁盘阵列,无需更改阵列映射LUN的任何内容,当双活数据中心的两台VIS出现故障,将

35、VIS从整个SAN网络中移除,阵列直接将LUN映射给主机使用,主机可正常拉起业务,防止出现由于虚拟化失败或者虚拟化不能快速回退造成的数据丢失等导致业务系统不可恢复的情况。说明:此功能当在上层应用为虚拟化场景,且下层阵列为友商阵列时需要了解友商阵列的清预留的命令才能实现“逃生”功能。(蓝色字体部分实际使用时不对客户体现)4.2.6 镜像快速恢复功能设计华为VIS镜像功能具备镜像故障快速处理机制,只需要重新镜像数据差量而不需要做全量的镜像。该算法基于一个位图数据结构:数据改变对象(DCO)。一旦某个镜像卷或者整个设备故障,VIS会在DCO中记录两个卷之间的差异点。当镜像卷或存储设备恢复,则VIS根

36、据DCO差异的情况,从源卷中将数据读入同步到镜像卷。达到快速恢复镜像的目的,不用完全重新同步。4.2.7 存储双活方案仲裁设计有第三方仲裁站点如下图所示,为保证当任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性,方案建议采用第三方仲裁磁盘,由两个双活的生产中心及第三仲裁存储单元分别为虚拟化存储集群提供一个仲裁盘。这样,便可以保证即使出现数据中心整体故障或中间链路故障等极端场景,虚拟化存储集群仍然可以访问至少两块仲裁盘进行仲裁,保证业务可靠性和数据一致性。存储双活方案仲裁设计第三方仲裁站点位于XX点,XX点与两个数据中心之间通过XX线互联。可直接从部署于XX点的仲裁存储单元上创建

37、一个1GB的LUN,可通过FC链路或IP链路映射给两个数据中心的VIS。当出现任一数据中心整体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:1) XX数据中心与XX数据中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂”,存储虚拟化平台从一个大集群分裂为两个小集群;2) 根据集群“脑裂”的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占存放第三方仲裁信息的仲裁盘,抢占到51%以上仲裁信息(即抢占到2个仲裁盘)的小集群“获胜”,将继续对外提供服务,为应用提供存储访问空间;3) 未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;

38、4) 当中间链路恢复时,“自动退出的小集群”检测到中间链路由故障变为正常,尝试与“继续服务的小集群”握手通信,经过握手通信两个小集群再次组成一个大集群,以Active-Active模式提供服务,互相之间实现冗余。无第三方仲裁站点若无第三方仲裁站点,则选择将第三方仲裁盘配置在任意一个数据中心,并实施必要的掉电保护措施,例如部署独立UPS电源。采用此种方式部署,则当出现存放两块仲裁盘的数据中心整体故障,如大面积停电,火灾等灾难。由于集群无法获得超过51%的仲裁信息而导致整个集群停止对外服务,业务中断,需要手工进行恢复。4.2.8 跨数据中心网络设计同城双活数据中心网络至少包括五张网:l 业务访问网

39、(IP,作为客户端访问服务器的主要网络)l 应用迁移网和应用心跳网(10GE,主要进行虚拟机在线迁移操作与主机集群的心跳网络)l 存储镜像网络(FC)l VIS心跳网络(GE二层网络,作为VIS集群的心跳网络)l VIS仲裁网络(GE三层网络或FC)不同的网络间,可以通过划分不同的VLAN实现。为保障方案的可靠性,华为同城双活方案采用数据传输链路与心跳链路分离设计的原则。通过VLAN或VRF隔离端到端流量,同时进行分配独立的物理互联链路,做到业务流量与集群心跳分离流量,互不影响。采用FC链路实现同城双数据中心间的数据实时同步,采用二层以太网络实现双数据中心间的存储虚拟化集群(VIS)以及主机应

40、用集群的心跳、同步互联链路通信。由于FusionCompute仅支持配置一个网关,所以数据中心A和数据中心B中作为网关的汇聚(核心)交换机,需要配置为主备网关模式。主网关优选生产站点侧的交换机。在实际进行VLAN跨站点配置时,在以太网汇聚交换机上按照VLAN配置主备网关的VRRP。对于一个VLAN,部署了虚拟机业务的一侧站点网关配置为主网关,另一侧站点网关配置为备网关。若两个数据中心之间存在VMware vMotion在线迁移操作,则VMware单台虚拟机跨数据中心迁移要求IP链路带宽为1Gb/s,若存在多台虚拟机同时迁移(并行),则相应的带宽要增加。实际部署时,建议至少部署一条10GE链路用

41、于VMware迁移复制流量。VIS镜像必须采用FC光纤互联。两数据中心相距25km以内可采用裸光纤直连。如果距离超过25km或只有一对裸光纤,建议使用OTN波分设备来构建两数据中心的同城网络。部署OTN波分设备时,建议采用1+1主备线路双发选收的方式,提供物理链路的高可靠性。一对裸光纤中断时,另一条裸光纤可马上恢复业务流量,切换时上层网络及应用无感知。园区网络设计适用场景:两个数据中心容灾距离小于25km,采用光纤交换机直连。两个数据中心中用于主机应用心跳网络、虚拟机vMotion网络的以太网交换机建议采用10GE并一对一级联;用于VIS集群心跳网络的以太网交换机采用GE并一对一级联;用于存储

42、数据同步的FC交换机一对一级联;以太网交换机也可以Trunk端口捆绑交叉组网。4节点VIS集群一对一级联组网图如下:8节点VIS集群一对一级联组网图如下:同城网络设计适用场景:两个数据中心容灾距离小于100km,链路采用DWDM连接。两个数据中心中用于心跳网络的IP交换机和用于存储复制网络的FC交换机都分别连接到OTN波分设备。不同的业务互联,通过波分复用统一承载于两对1+1备份的裸光纤或一对裸光纤中。4节点VIS集群组网图如下:8节点VIS集群组网图如下图所示:4.3 存储双活方案应用配置建议4.3.1 VMware配置建议 建议将XX数据中心和XX数据中心所有用于运行虚拟机的ESXi服务器

43、配置为一个集群,配置HA和DRS功能。 虚拟机必须安装VMware Tools软件(免费)。VIS上创建的用于虚拟机的卷必须映射给集群内所有服务器,以便提供共享存储服务。 服务器之间建议通过万兆以太网提供心跳服务与vMotion迁移流量,集群内的所有服务器需符合集群的兼容性规则。 如果进行虚拟机在线迁移操作,最好选择业务不太繁忙时进行。 为了预防生产站点突发性灾难,同城双活数据中心运行虚拟机的服务器需要保持开机状态。4.3.2 FusionSphere配置建议 Fusionsphere双活方案中,需要启用DRS特性进行虚拟机本地优先启动和HA,因此如果用户配置了其他DRS规则,则不能与容灾DR

44、S规则冲突,否则无法保证虚拟机本地优先启动和HA。 数据中心A和数据中心B的业务均通过主网关提供,规划数据中心A和数据中心B的业务网络带宽时需要同时考虑该部分的业务需求。4.3.3 Oracle RAC配置建议基于虚拟化设备的双活方案是能真正支持Oracle RAC跨数据中心部署的方案,Oracle RAC跨数据中心部署,对数据库版本以及业务系统的部署方式有一些要求和建议: 要实现Oracle数据库的跨数据中心的集群部署,需采用支持Oracle Extended Distance Cluster的Oracle版本。建议使用Oracle 10g发行版2 或更高版本。 Oracle部署通常有三种存

45、储管理方式:文件系统,裸盘和ASM,推荐使用ASM。 对于Oracle Extended Distance Cluster配置,建议对 Oracle Clusterware和Oracle 数据库二进制文件和主目录进行本地存储,以减少站点间流量。 为了避免跨数据中心进行数据的交互,建议在Oracle RAC层创建不同的service,实现业务分离。通过Service-Side TAF的PREFERRED功能设置应用只访问本地实例;同时设置远端数据中心的实例为AVAILABLE,只有本地实例都故障才切换到远端实例;可以减少RAC跨数据中心交互的次数,提升整体性能。4.4 华为存储双活方案优势真正的

46、“A-A”高可靠架构虚拟化存储集群采用真正的“Active-Active”的高可靠架构,提供可被两数据中心主机并发访问的共享双活卷,连接到其任何虚拟化引擎上的主机都可以访问同一个虚拟卷,并像访问本地存储一样对虚拟卷进行读写。两数据中心可同时对同一个业务系统提供读写服务,并自动实现业务在站点间的负载均衡,为用户提供更加灵活的数据访问方式。如果采用将一台阵列的两个控制器部署在两个数据中心的方案,每数据中心内部只有一个控制器。由于备控制器无法被生产中心主机访问,只能提供一条备用的存储路径,用户无法访问备数据中心的数据。拓扑可视化图形化展示双活物理拓扑图与业务逻辑拓扑,监控双活数据中心运行状态,提供业

47、界领先的ALL IN ONE可视化、流程化的容灾业务管理。更高的系统可用性通过在每个站点部署一台或多台全冗余架构的虚拟化存储设备,站点间和站点内都不存在单点故障的风险,可以避免任何单点故障导致业务中断的风险。华为独特的虚拟化存储集群架构,在单个数据中心虚拟化引擎故障情况下,不但不影响主机业务,还可保证数据实时镜像不中断,提供更高的可用性。如果采用将一台阵列的两个控制器部署在两个站点的方案,每站点内部只有一个控制器,存在单点故障风险。更高的存储资源利用率虚拟化存储设备可以统一接管不同厂商,不同品牌的存储设备,充分利用现有存储设备资源。两个数据中心的存储资源被统一接管后,被虚拟化为统一的存储资源池

48、,并以双活的方式共同对外提供服务,在数据中心之间自动进行负载均衡,存储资源得到充分利用,提高了资源利用率。如果采用将一台阵列的两个控制器部署在两个数据中心的方案,每数据中心内部只有一个控制器。由于备控制器无法被主机访问,因此,与传统容灾方案一样,被控制器所在数据中心的存储资源无法充分利用,存储资源浪费严重。更好的弹性可扩展能力华为存储双活方案可支持在每个数据中心部署一台或多台全冗余架构的虚拟化存储设备。因此,随着业务的增长,方案能够支持引擎的横向扩展,且新增加的引擎与现有引擎构成一个统一的虚拟化存储集群,提供统一的IO处理能力。如果采用只支持双控的双活数据中心架构,不具备控制器的横向扩展能力。

49、随着业务的增长,方案只能通过新购设备的形式扩容,无法实现存储资源的整合与共享,不能支持弹性可扩展。更易于维护与管理采用华为存储双活方案,两个数据中心的主机可同时访问同一个虚拟卷,部署应用层集群时,只需按照部署普通集群的方法进行部署,大大降低了方案实施和维护难度。华为存储双活方案提供了全自动的故障处理机制,故障切换过程无需人工干预,大大降低了容灾系统维护成本。单个数据中心中,任何部件需要升级等维护工作时,可以将该生产中心需要维护的设备停机,另一个正常的生产中心会自动接管业务,数据零丢失,提高了系统的可维护性。如果采用将一台阵列的两个控制器部署在两个数据中心的方案,由于备控制器无法被主机访问,当发

50、生主控制器故障或数据中心级故障时,需要先切换同步复制关系,再切换主机访问路径,来使存活数据中心的控制器强行接管故障数据中心控制器的工作。增加了系统维护与管理的难度。4.5 存储双活方案故障切换与恢复4.5.1 故障切换流程根据XX局实际业务需求,存储双活方案部署虚拟化VMware应用,构建跨数据中心的VMware ESX Stretch Cluster,实现应用双活;存储双活方案配合FusionCompute的虚拟机HA功能和DRS功能实现的存储双活部署;两个数据中心分别部署运行不同的Oracle RAC业务,构建跨数据中心的镜像数据保护。在该部署场景下,在各单部件和链路故障,甚至整个数据中心

51、故障,都可以实现业务自动无缝切换。具体故障切换情况如下表所示(以下切换过程适用于4节点VIS集群双活场景):故障切换场景故障场景测试用例故障切换情况部件故障单中心服务器故障主机集群自动检测到故障,业务自动切换到未故障的主机上单中心VIS单控制器故障虚拟化智能存储设备其它节点自动接管虚拟化,业务主机I/O自动切换,业务无中断单中心阵列单控制器故障磁盘阵列的其它节点自动接管其I/O,业务无中断单中心VIS故障另一数据中心虚拟化智能存储设备自动接管虚拟化,业务主机I/O自动切换,业务无中断单中心阵列故障另一数据中心的磁盘阵列自动接管其I/O,业务无中断同城链路故障同城链路故障VIS集群仲裁,一边数据

52、中心VIS存活,业务自动切换到仲裁存活的数据中心数据中心故障单数据中心故障业务自动切换到存活的数据中心在各故障场景中,故障恢复后,集群自动恢复,故障节点自动加入VIS集群、Oracle RAC集群或VMware vSphere HA集群、FusionSphere HA集群,故障节点自动恢复承载业务,集群各节点间业务负载均衡。其中单中心阵列、同城链路和单数据中心故障恢复时,镜像关系修复过程中,为避免旧数据覆盖新数据,需手动修复VIS镜像对的关系。VIS单控制器故障每个数据中心各部署一台双控冗余配置的VIS,构建一个跨数据中心的4节点VIS集群。当VIS的其中一个控制器发生故障时,同数据中心的VI

53、S节点自动接管其虚拟化,业务主机I/O自动切换到本数据中心的VIS节点,不会发生跨数据中心切换。假设数据中心A的VIS控制器1故障,处理过程如下:1) VIS集群检测到VIS节点控制器故障,将该VIS节点踢出集群;2) 主机多路径检测发现主机到VIS控制器1的路径故障,将路径自动切换到本数据中心VIS的控制器2进行I/O访问;3) 两个数据中心业务不发生切换,正常运行;主机业务写I/O,通过VIS镜像,仍然实时同步写到两个数据中心的阵列;读I/O保持从本地存储读取, VIS不会跨数据中心读取数据。阵列单控制器故障存储双活方案,每个数据中心各部署一台双控冗余配置的XX磁盘阵列。当XX阵列的其中一

54、个控制器发生故障时,该阵列另一控制器节点自动接管其业务,业务主机I/O不会发生跨数据中心切换。假设数据中心A的阵列控制器1故障,处理过程如下:1) 阵列检测到控制器1发生故障,工作正常的控制器2接管其业务;2) VIS集群后端磁盘多路径检测发现VIS到该阵列控制器1的路径故障,将路径自动切换到阵列控制器2进行I/O访问;3) 两个数据中心业务不发生切换,正常运行;主机业务写I/O,通过VIS镜像,仍然实时同步写到两个数据中心的阵列;读I/O保持从本地存储读取,VIS不会跨数据中心读取数据。单链路故障存储双活方案,采用双交换机冗余组网方式,当数据中心内其中一条链路故障时,业务主机I/O自动切换,

55、业务无中断。假设数据中心A中VIS到阵列的一条链路故障,处理过程如下:1) VIS集群后端磁盘多路径检测发现路径故障,自动切换到另一条正常路径进行I/O访问;2) 两个数据中心业务不发生切换,正常运行;主机业务写I/O,通过VIS镜像,仍然实时同步写到两个数据中心的阵列;读I/O保持从本地存储读取,VIS不会跨数据中心读取数据。单中心VIS设备故障存储双活方案,两个数据中心的VIS构建的是跨数据中心集群,当其中一台VIS故障时,另一数据中心虚拟化智能存储设备自动接管业务,业务主机I/O自动切换,业务无中断。假设数据中心A的一台VIS设备故障,处理过程如下:1) VIS集群检测到数据中心A的VI

56、S故障,将故障VIS节点踢出集群,虚拟化智能存储设备自动接管虚拟化卷;2) 主机多路径检测发现主机到数据中心A的VIS路径故障,将路径自动切换到数据中心B的VIS进行I/O访问;3) 两个数据中心业务不发生切换,正常运行;主机业务I/O,通过VIS镜像,仍然实时同步写到两个数据中心的阵列;读I/O从数据中心B的磁盘阵列读取。单中心阵列设备故障存储双活方案,每个数据中心各部署2台磁盘阵列,通过虚拟化智能存储的 VIS镜像功能,两个数据中心的XX阵列跨数据中心镜像,数据实时同步。当单数据中心一台阵列故障时,业务I/O自动切换到另一数据中心的镜像阵列处理,业务无中断。假设数据中心A的一台阵列故障,处

57、理过程如下:1) VIS集群检测到数据中心A的阵列故障,VIS将该阵列盘状态置为disable, VIS镜像关系故障;2) VIS后端磁盘多路径检测发现VIS到该故障阵列的路径故障,将路径自动切换到数据中心B的镜像阵列进行I/O访问;3) 两个数据中心业务不发生切换,正常运行;主机业务写I/O只写到数据中心B的阵列,并记录新增数据位图,标识数据中心A与数据中心B阵列之间差异;读I/O从数据中心B的磁盘阵列读取。同城链路故障同城网络包括业务数据镜像网络、VIS集群网络和虚拟机的vMotion网络,Oracle RAC私有网络,当同城网络故障时,通过VIS集群的仲裁机制,仲裁抢占胜利的VIS对应的

58、数据中心则接管所有的业务,业务自动切换。详细处理过程如下:1) 同城网络链路故障,VIS集群检测到集群心跳网络链路故障,集群开始仲裁;2) 如果数据中心B的VIS仲裁抢占胜利,数据中心A的VIS重启,踢出集群;数据中心B的VIS无法访问到数据中心A阵列,VIS将该数据中心A的阵列盘状态置为disable,VIS镜像关系故障;3) 主机集群检测到数据中心A的服务器到数据中心B的VIS链路故障,业务I/O不能正常访问,数据中心A的业务自动切换到数据中心B;4) 主机业务写I/O只写到数据中心B的阵列,并记录新增数据位图,标识数据中心A与数据中心B阵列之间差异;读I/O从数据中心B的磁盘阵列读取。单

59、数据中心故障存储双活方案,设备全冗余架构部署,当一个数据中心发生停电或火灾等灾难时,另一个数据中心VIS对应的数据中心则接管所有的业务,业务自动切换。详细处理过程如下:1) VIS集群检测到数据中心A的VIS故障,集群重构,踢出集群;数据中心B的VIS无法访问到数据中心A阵列,VIS将该数据中心A的阵列盘状态置为disable, VIS镜像关系故障;2) 主机集群检测到数据中心A的服务器故障,数据中心A的业务自动切换到数据中心B;3) 主机业务写I/O只写到数据中心B的阵列,并记录新增数据位图,标识数据中心A与数据中心B阵列之间差异;读I/O从数据中心B的磁盘阵列读取。4.5.2 故障恢复流程

60、在各故障场景中,故障恢复后,集群自动恢复,故障节点自动加入VIS集群、Oracle RAC集群、VMware vSphere HA集群、FusionSphere HA集群,故障节点自动恢复承载业务,集群各节点间业务负载均衡。其中单中心阵列、同城链路和单数据中心故障恢复时,恢复VIS镜像关系,同步差异的增量数据。故障恢复场景恢复场景测试用例故障恢复情况部件故障恢复VIS单控制器故障后恢复VIS控制器节点自动加入VIS集群,自动恢复VIS引擎双控冗余配置,分担负载阵列单控制器故障后恢复阵列控制器节点自动加入存储集群,自动恢复阵列双控冗余配置,分担业务负载单链路故障后恢复自动恢复双交换组网冗余配置,

61、分担业务负载单中心VIS故障后恢复VIS故障节点自动加入VIS集群,分担主机业务负载单中心阵列故障后恢复恢复VIS镜像关系,同步差异的增量数据同城链路故障恢复同城链路故障后恢复恢复VIS镜像对关系,同步差异的增量数据;重启VIS,VIS节点自动加入集群,分担主机业务负载;重启服务器,主机故障节点自动加入集群数据中心故障恢复单数据中心故障后恢复恢复VIS镜像对关系,同步差异的增量数据;重启VIS,VIS节点自动加入集群,分担主机业务负载,主机故障节点自动加入集群下面重点介绍同城链路故障机单数据中心故障恢复过程:同城链路故障修复两个数据中心间的同城链路故障后,在保证了业务继续运行的前提下,按照如下

62、步骤修复故障系统:1) 先恢复FC链路,再恢复IP链路;2) 链路修复好之后,重启仲裁抢占失败数据中心的VIS和服务器,VIS集群自动重构,组成4节点集群,主机集群进行集群自动重组;3) 恢复两个数据中心的阵列镜像关系,新增的增量数据由仲裁抢占胜利数据中心阵列恢复至仲裁抢占失败数据中心镜像阵列;4) Oracle RAC集群恢复正常后,如果配置为负载均衡连接模式,业务会自动均衡地运行在集群中的所有主机上;VMware vSphere集群恢复正常后,如果配置了DRS功能,虚拟机会自动相对均衡地运行在集群中的所有ESXi主机上。如果没有配置DRS功能,可以手工vMotion的方式,将业务在线迁移至新加入集群的ESXi主机上;Fusionsphere集群恢复正常后,配置了DRS功能,虚拟机自动相对均衡地运行在集群中的所有CNA主机上。5) 系统恢复到正常双活场景。单数据中心故障修复单个数据中心全部故障后,在保证了业务继续运行的前提下,按照如下步骤修复故障系统:1) 修复并启动故障数据中心的阵列;2) 修复并启动故障

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!