容错科技rongcuocluster双机容错解决方案

上传人:wu****ei 文档编号:160123818 上传时间:2022-10-10 格式:DOC 页数:14 大小:142.51KB
收藏 版权申诉 举报 下载
容错科技rongcuocluster双机容错解决方案_第1页
第1页 / 共14页
容错科技rongcuocluster双机容错解决方案_第2页
第2页 / 共14页
容错科技rongcuocluster双机容错解决方案_第3页
第3页 / 共14页
资源描述:

《容错科技rongcuocluster双机容错解决方案》由会员分享,可在线阅读,更多相关《容错科技rongcuocluster双机容错解决方案(14页珍藏版)》请在装配图网上搜索。

1、膅膂蒈羅袄莈莄羄肇膁螃羃腿蒆虿羂芁艿薄羁羁蒄蒀羁肃芇蝿肀膆蒃蚅聿芈芆薁肈羇蒁蒇蚅膀芄蒃蚄节蕿螂蚃羂 容错科技rongcuocluster双机容错解决方案 一 容错rongcuocluster双机方案简单描述随着计算机技术的发展,信息已成为系统日常活动中十分重要的一个组成部分,同时,由于系统的复杂性和开放性以及应用环境的多样化,也给应用系统的运行带来了许多不确定因素。这些因素也导致对服务器的安全性也提出了更高的要求,基于该平台业务系统的安全,稳定可靠和系统的持续运行成为系统的关键。在一般情况下,当系统不能正常运行时,我们需要用人工的方法进行故障的认定、分析、恢复及测试。这些都需要花费很长的时间。

2、在这段时间内,系统必须停顿下来以等待恢复,从而给企业带来难以估计的经济损失。双机容错是计算机应用系统稳定、可靠、有效、持续运行的重要保证。它通过系统冗余的方法解决计算机应用系统的可靠性问题,并具有安装维护简单、稳定可靠、监测直观等优点。当一台主机出现故障,该软件可及时启动另一台主机接替原主机任务,保证了用户数据的可靠性和系统的持续运行。可以说,在目前信息系统的可用性已成为衡量其资源利用率的最重要的尺度。为了保证系统的不间断,建议采用容错公司的Rongcuocluster双机容错软件。该软件技术领先,安装管理方便,对系统资源占用极少,能确保您的高可用需求。二 用户需求描述 略三 Rongcuoc

3、luster 软硬件配置及网络拓扑图硬件配置:两台可为不同类型的服务器(最好为同类型) :IBM/HP/DELL服务器上的网卡(NIC)磁盘阵列柜:SCSI/FC软件配置:操作系统:Windows2000/2003容错系统:Rongcuocluster for win2000/2003数据库:Oracle、Sybase、SQL Server 等等其它应用软件拓扑图根据客户实际画四 容错科技简介RongcuoCluster集群系统的工作原理 RongcuoCluster集群系统软件是由三部分组成,这三部分协同工作,共同完成主机系统的备援工作。 RongcuoCluster软件在启动时,首先读取集

4、群系统的配置文件,在该文件中描述集群系统中各节点的网络信息,硬件描述以及任务的定义等参数。 集群核心程序根据集群的配置信息,进行集群系统的状态重组。根据当前的网络状态和集群参数,对节点中的服务器进行调整,建立集群的初始状态。 在节点初始状态建立起来后,根据规则网络管理模块向管理模块提交各节点的网络状态,管理模块根据各节点的网络状态和集群中对资源的定义,对集群中的各节点进行网络资源分配,使集群中的某个节点获得对外提供网络服务的资源。 同时启动节点监控功能,对集群中的节点进行网络状态监控,保持网络状态的健康。当集群管理模块对网络资源进行分配后,通过任务管理模块对集群中的任务进行分配,根据集群网络资

5、源的分配情况,将与该网络资源相依存的任务分配给已获得对外提供网络服务的节点。 集群任务启动后,该模块启动任务监控功能,对所启动任务的关键进程进行监控。保障对外提供服务的资源健康。当以上资源建立起来后,集群系统进入正常运行状态。RongcuoCluster高可用集群系统,在进入正常运行状态后,通过专用的通讯链路和集群中的其它节点进行通讯,传输各节点的状态信息,使各节点的核心管理模块获得整个集群节点的实时状态。当系统中有节点故障时,集群管理模块根据集群当前的状态和该故障节点在集群中的角色做出集群系统是否重组。当该节点为生产机时,集群系统会自动将属于该节点的资源和任务移交到下一个备用节点。保证该业务

6、正常运行。如果该节点为备份服务器,则需要通知整个集群对备援状态进行调整,将该故障节点从备援设备表中删除。使备援记录中不再有该故障节点的记录。直到该节点修复后重新在线,集群软件自动进入集群中作为备援节点角色。RongcuoCluster集群系统的监控原理 当集群系统正常运行后,RongcuoCluster高可用集群系统进入系统监控状态。在监控状态下具有网络状态检测、应用程序检测、集群软件自身状态检测和存储子系统检测。在该状态中主要对以下资源进行监控:网络状态监控 在集群运行中,RongcuoCluster集群软件的网络管理模块对整个网络中的网络资源进行实时监控,获取整个网络的运行状态。如果监控到

7、集群中有节点失效时,将该节点的网络状态通知到RongcuoCluster的管理模块,管理模块根据当前的网络状态和该节点在整个集群中的角色(生产机或备援机),通知整个集群进行状态重组。如果该节点为生产机,则管理模块通知集群中的下一个备援服务器进行任务接管。从集群中剔出该故障服务器。对整个集群重新分配规则。如果为备援机,则管理模块通知整个集群节点进行规则调整,将该故障节点从备援节点表中剔出,保持集群系统中节点的有效性。应用监控 对外提供服务的应用程序一般为数据库或中间业务系统,如果应用程序出现故障,则集群中的该节点也无法正常提供对外的服务。 为提高集群的可用性,RongcuoCluster可以在集

8、群资源中灵活定义对进程进行监控的方式。对进程名监控还是对进程个数进行监控。 当关键进程丢失或进程个数达不到一个固定的阀值时,集群会将资源转移到下一个节点运行,保障应用系统的正常运行,保持整个集群的健康状态。集群软件运行状态监控 集群软件在运行的过程中,因其它因素的影响,会造成自身的进程丢失。如果自身进程丢失,会影响到整个集群的运行状态。RongcuoCluster集群软件,实现对自身进程的监控,当人为或意外操作将某个RongcuoCluster的服务进程退出运行时,RongcuoCluster会自动将该丢失的进程重新运行。保障RongcuoCluster系统的自身运行安全。存储子系统监控在集群

9、系统运行过程中,所有的数据均存放在共享的磁盘阵列子系统中,当磁盘阵列子系统因连接线或SCSI卡出现故障导致无法对主机提供服务时,RongcuoCluster高可用系统根据配置的集群资源,并确认当前的主机是工作机(生产机)时,会自动将该主机的任务移交到备用节点,使系统可以继续服务。同时在日志中报警,提醒用户对该故障进行处理、维护。RongcuoCluster高可用集群软件,通过集群节点间的心跳信号,和其它节点进行通讯,获得其它节点的运行状态,根据整个集群中各节点的状态,更新本节点自身的状态表。同时根据集群管理层的命令,调整自身节点的状态和集群资源。 RongcuoCluster集群系统软件通过实

10、时对集群系统资源的监控,及时发现集群中节点的故障,及时通过备用节点代替故障节点的工作,使集群状态处于一个完整的健康状态。RongcuoCluster集群系统的特性采用任务提交、确认机制 在集群系统中,节点之间通过消息确认方式进行任务的移交。主服务器在对任务进行移交时,对任务进行关闭后,通知备份服务器进行任务接管工作。当备份服务器没有接到确认消息时,始终处于等待状态,直到接到确认消息。当备份服务器在长时间没有接到确认消息时,会通过侦测对方的任务状态来判断,主机的任务是否安全关闭。如任务已关闭,则通知主服务器要接管任务,并开始执行任务接管。如果任务没有关闭,则主服务器处于僵死状态(操作系统故障)时

11、,对该任务进行强制接管。并通知集群系统该主机不可用。RongcuoCluster高可用集群软件,对集群节点中的关键操作均采用确认方式,确保任务安全移交,杜绝双主机、多主机状态和双任务状态。集群配置安装维护简单 图形化的配置管理界面,对集群文件系统配置、网络配置以及任务的配置方式均通过选择方式进行,操作简单易用。 RongcuoCluster高可用集群软件采用简洁的菜单选择方式,对集群中的资源进行配置,不采用编写脚本的方式进行配置,而是在每项菜单中对集群的资源配置以表格的方式进行填写。使软件具有很好的可用性。 同时通过菜单和表单方式进行组合,使管理员对集群的配置维护都具有很高的直观性。使软件便于

12、设置和维护。管理员密码验证 对于一个集群来讲,该集群的资源配置参数最为重要,任意修改该资源配置参数,则会导致整个集群的运行。RongcuoCluster高可用集群软件为保护集群配置的安全,在对集群资源配置时,增加了用户口令验证,只有持有该口令的管理人员才能对集群的资源进行修改、配置。通过口令验证方式,对集群的配置安全做进一步的保护。集群软件自身监控功能集群的安全的另外一个重要的因素是自身的安全,当程序因意外故障导致集群服务主程序退出时,需要能够对退出的运行程序进行处理。RongcuoCluster高可用集群系统采用自身监控的功能,当某个程序退出运行时,集群自身能够对该退出的程序进行重新启动,保

13、护集群软件健康运行。对应用程序的灵活监控功能RongcuoCluster高可用集群软件在对应用程序监控时,采取非常灵活的方式。可以对关键进程进行监控,也可以对进程的个数进行监控。当定义对进程个数进行监控时,只需要对监控的进程个数设置一个阀值,当进程个数低于该阀值时,系统会自动发送通知到管理核心模块,对该任务进行任务移交。支持多节点方式 RongcuoCluster支持从两个节点的简单集群系统,平滑过渡到以后的多节点集群系统,对业务系统整合以及优化业务系统有很大的优势。支持远程管理模式RongcuoCluster采用流行的C/S方式对集群进行管理、维护及其监控等操作,均可以通过客户端方式进行操作

14、,不需要在服务器上进行操作。客户端通过直观的图形方式对集群的整个状态进行实时监控。当集群有故障时,客户端通过声音、邮件方式进行报警处理。并在集群的监控窗口显示故障点的位置。支持更多存储环境 集群软件采用系统级的硬件处理,与硬件无关性,只要操作系统支持的硬件、RongcuoCluster集群软件均可以支持, 支持流行的SAN架构的光纤磁盘阵列子系统、SCSI结构的磁盘阵列子系统、以及ISCSI存储环境。支持多种应用系统 支持目前流行的数据库系统,如Oracle、Sybase、MS SQL Server、DB2等 支持应用系统:Microsoft IIS等应用系统。 支持群件系统:IBM Note

15、s等。中英文管理界面,可以根据需要选择 RongcuoCluster版本描述功能特性RongcuoCluster-DNRongcuoCluster-MN支持节点数22-8(最大无限制)任务数1-21-8(最大无限制)通信链路1-21-4协议SocketMLDC存储控制支持SCSI/SANSCSI/ISCSI/SAN/NAS双柜环境支持支持远程监控支持支持统一平台管理不支持支持中文语言包支持支持专业应用保护模块不支持可选集群自监控支持支持备援方式2种多种负载均衡不支持支持(可设置)集群回切机制不支持支持(可设置)安全认证高极高(ESA128位加密)自动报警有(声音/邮件)有(声音、邮件)事件日志

16、有详细(支持调试模式)资源侦测可靠智能化RongcuoCluster规划技术要点RongcuoCluster集群的硬件配置概述配置高可用系统的目的是保证系统可以不间断的提供服务,因此硬件配置的一个关键是尽可能的减少单点故障,而手段主要有两种:使用容错服务器和配置集群环境。我们这里仅讨论通过RongcuoCluster实现的集群高可用环境,因为容错机的普遍使用还不现实,价格昂贵加上维护困难。目前国内外用户普遍采用的是集群环境,占大多数的是双机集群,国内通常称为双机容错。双机容错从高端的HP-UX上的McService Guard、IBM AIX上的HACMP等,到Intel 构架服务器环境下的N

17、T/2000、SCO Open Unix/OpenServer/UnixWare、Linux等的双机容错解决方案。高可用集群环境下的双机或多节点高可用并非完全没有单点故障,就像前面介绍的,完全没有单点故障的环境是没有的。在我们的RongcuoCluster集群环境下,通过合理配置硬件设备,可以尽量减少单点故障点。下面我们讨论几种建议的配置环境和设备选型的原则。为提供高级别的可用性,典型群集软件使用冗余系统组件,如采用两个独立的磁盘等方式提高系统的可用性。这种必要的硬件冗余结构主要是消除整个系统的单点故障。一般来讲,冗余程度越大,出现故障时访问应用程序、数据和支持性服务的可靠性就越大。除硬件冗余

18、外,系统还必须具有软件支持,因为软件支持在出现故障后启动和控制应用程序向另外一个网络或节点进行转移。RongcuoCluster就是基于这样的需求由容错科技自主研发的集群软件包,可以提供以下支持:A 在网络出现故障的情况下,RongcuoCluster自动将受到影响的任务转移到备用节点。B 在其它受集群系统管理的资源出现故障的情况下,RongcuoCluster自动将程序转移到备用节点上。C 在软件出现故障的情况下,应用程序可以在另外一个节点上重新启动,针对整个系统来讲,同时中断的时间最短。 通过rongcuoCluster构造的高可用系统,使您具有对硬件系统进行在线升级的功能,通过Rongc

19、uoCluster可以轻松的将系统转移到另外一个节点上,以便对当前的系统进行维护和升级等操作,当系统升级结束后,再将任务移交至本机,再对另外一个节点进行维护和升级。集群设备选型的要点我们前面有很多关于单点故障的描述,那么在配置集群环境中我们如何选择自己的硬件环境呢?在具体表述之前,我们先回顾一下一个高可用集群系统的可用性是如何得到的。一个双机环境通常由两台服务器和一个磁盘阵列,通过一个SCSI/FC链路串接在一个总线上,那么其整体的可用性等于 :服务器1的可用性X服务器2的可用性X磁盘阵列的可用性也就是说如果服务器1是99.99,服务器2是99.999,磁盘阵列是99.99,则双机(对等工作方

20、式:Active/Active)环境下的整体可用性是:0.9999X0.99999X0.9999=0.99而对于一个磁盘阵列子系统来分析其可用性,则是由组成阵列的各部件的可用性相乘得到。磁盘阵列系统由电源、背板、控制器、多个硬盘组成,那么磁盘阵列整体的可用性通常达到五个九(99.999)已经很难了,因为很多磁盘阵列都是盘和柜单配的,而市场上的硬盘通常可靠性不是很高的。导致整个磁盘阵列可靠性不高,从而最终导致整个高可用环境的可靠性低。因此我们得到的结论是高可用环境下的硬件设备选择是系统的可用性的基石,而一个好的高可用软件使集群成为现实。选择硬件的原则可以归纳为:A 性价比是选型的要点;B 磁盘阵

21、列是集群系统的核心,它的可靠性是关键,性能次之;磁盘阵列有可能是单点故障点,它必须在环境中具有最高的可用性和可靠性;C 集群中的服务器可以选择不同配置,但尽量相同品牌;D 尽可能少的留有单点故障点;E 选择开放性好的服务器,可靠性尽量的高;F 尽量采用设备独立的存储子系统,既尽量采用带有独立RAID控制器的存储设备;G 选择磁盘阵列尽量考虑其硬盘的可靠性,最好和阵列柜统一考虑;H 磁盘阵列一定要求双路电源、散热性、抗震性、抗干扰能力等都是很重要的;I 正确认识磁盘阵列控制器的有关参数:CPU、Cache、通道等,这些数值不能代表磁盘阵列的可靠性和性能的高低。分析:单独就双机环境下的集群来分析,

22、设置两台服务器的目的是使系统处理单元(SPU)达到冗余,而共享存储冗余的代价太大,一般选配一个单柜来实现,而RongcuoCluster软件包负责监控系统,并在系统故障时报警并做出相应的切换操作,保证服务不丢失。但服务不丢失的前提是磁盘阵列部分不出故障,一旦磁盘阵列的控制器故障导致设备无法访问,则无论服务器主机有多好的性能和可靠性,都无法阻止系统停止服务。选择可靠的磁盘阵列是关键。如果真的要做到没有单点故障,则可以配置双控制器的磁盘阵列来避免控制器损坏导致的宕机,也可以配置双柜来达到磁盘阵列的冗余。两种方式各有利弊,双控并非完全避免单点故障,它涉及到控制器热切换,而且两个控制器同时在线,同时损

23、耗,也无法避免由于硬盘损坏导致的停机;双柜方式通常需要特定软件的支持,保证磁盘柜之间数据的同步,同时代价很大,这两种情况要根据实际需求来定义。服务器是服务提供的运行部分,它应该有很高的可靠性和开放性,便于维持整个系统的扩展性和开放性。集群环境中的服务器可以配置不一样,可以节省投资,因为RongcuoCluster双机用户中,通常采用的都是主从(Active/Standby)工作方式,备份服务器绝大部分时间是等待状态,可以配置的比主服务器低。集群环境中的应用数据,要求存放在共享磁盘阵列中,本地硬盘通常安装操作系统、应用软件及RongcuoCluster软件包,为保证主机系统安全性,建议系统盘通过

24、RAID1实现镜像,保证一块系统盘的损坏不会导致系统服务切换或终止。RongcuoCluster简单双机集群环境简单双机集群是目前大多用户采用的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过RongcuoCluster软件实现主从工作方式的双机环境。这样的环境不一定是十分严格的集群,因为按照前面描述的有关内容,需要考虑的问题太多,包括硬件配置、单点故障等。主从就是热备工作方式,容错软件作为不可缺少部分起到监控系统状态并在系统故障时,自动做出相应的反应,保证整个系统提供服务的不间断。对于这样的环境这里不进行过多的描述,理解下面的示意图就可以了。关键应用ERP的数据库关键应用ERP的数据库

25、RongcuoCluster复杂双机集群环境复杂双机集群环境通常指针对特殊用户需求而实现的较简单双机复杂得多的双机应用环境。这样的环境包括对等双机、双机双柜方案、异地双机(带容灾功能)等,这些环境的实现有时是有一定技术难度的。下面我们分别讨论几种复杂双机的定义。对等双机(Active/Active)对等双机就是我们通常说的双主机工作方式,这个环境下,有两套不同的应用运行在集群环境中,每台服务器运行各自的应用,在其中一台出现故障时,另外服务器将接管其服务。这种配置可以大大提高设备的利用率,缺点是增加了系统的复杂度,而且对于某些特殊应用环境可能无法实施。对等双机是真正的双机互备,要求服务器具有较强

26、的处理能力,来满足两个应用的需求。在配置对等双机时,硬件的配置与主从双机略有不同,主要在网卡上。对等需要至少两片网卡,每个网卡对应一个应用,可以是相同或不同网段的网络地址。对等双机通常要求两个应用的共享存储部分完全独立,它不同于通常的并行服务器,也不具有负载均衡功能。并行服务器典型的是ORACLE 的OPS(Oracle Parallel Server),它是多台服务器运行一个ORACLE数据库,通常需要特殊的底层软件包来支持,因为并行服务的关键是硬盘访问的一致性控制,ORACLE上称之为DML(分布锁管理),来控制数据的访问。目前,这样的环境只能在某些特殊的高端环境下运行。RongcuoCl

27、uster还做不到并行服务器的控制功能。而负载均衡的概念是对访问或处理的动态资源分配,保证最大限度的使用硬件资源。也有这样的原因使用负载均衡:访问或处理集中在一个数据资源上,而运行该数据资源的服务器根本无法满足访问的需求,这时需要多个服务器来接受访问,那么动态的将访问需求分配到不同的服务器上,来满足需求。总之,RongcuoCluster在对等方式下,满足的是对两个独立的应用实现高可用的需求。理论上我们可以将多个不同应用分布在两台服务器上,使得多个应用可以在高可用环境下运行,这样可以达到多应用互相备援的目的。因为RongcuoCluster可以对进程监控、对进程数量监控,对RongcuoClu

28、ster来讲,本身不区分进程的类型,仅仅把进程作为监控的对象而已。下面是RongcuoCluster对等方式的图解,请仔细理解。 图3-2附录1、RongcuoCluster最低系统要求至少128M内存; 50M磁盘空间以安装集群软件; 至少两块以太网卡;TCP/IP网络;至少一个Hub/Switch;800*600分辨率256色监控器; 2、硬件支持列表服务器及存储 HP /IBM /DELL /NEC 联想/方正/浪潮/华硕/HEAD/同方/宝德 其它基于Intel构架的PC服务器存储系统支持各种基于标准存储协议的存储设备 3、操作系统Windows 2000 SP3 及以上Windows 2003 or later其它主流操作系统技术服务终身免费电话支持技术热线:0571-82089118购买之日起一年的免费软件升级用户产品现场培训、环境优化(限购买安装服务用户)服务期内有限的现场服务 其它服务要求参考RongcuoCluster标准服务条款 莅蚁螅肇薁薇螄膀莄蒃螄莂膇袂螃肂蒂螈螂膄芅蚃螁芆蒀蕿螀羆芃蒅蝿肈葿螄袈膁芁蚀袈芃蒇薆袇羂芀薂袆膅薅

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!