IT运维与管理高峰论坛演讲刘静

上传人:小**** 文档编号:139497760 上传时间:2022-08-22 格式:DOCX 页数:85 大小:47.28KB
收藏 版权申诉 举报 下载
IT运维与管理高峰论坛演讲刘静_第1页
第1页 / 共85页
IT运维与管理高峰论坛演讲刘静_第2页
第2页 / 共85页
IT运维与管理高峰论坛演讲刘静_第3页
第3页 / 共85页
资源描述:

《IT运维与管理高峰论坛演讲刘静》由会员分享,可在线阅读,更多相关《IT运维与管理高峰论坛演讲刘静(85页珍藏版)》请在装配图网上搜索。

1、2008IT运维与管理高峰论坛演讲刘静刘静:非常荣幸今天有机会在这里跟大家一起探讨一IT服务管理的实践。实际上从IT服务管理的发展来看,大家在做各种各样的实践,包括在建设按照ITLI的最佳实际,结合国内的实际情况来建设相关的相关管理流程,而且不断地使这样的管理流程走向更加成熟。即使是这样,我们仍然发现,好象持续在做这些管理流程的一些实施的话,在我们整个的过程当中仍然碰到了困难。比如说我们很难看到一个跟业务相关的视图,比如说我们说在支持IT业务的运维和发展,我们怎么样看到跟IT业务相关视图以及业务的可持续化,是我们很难解决的问题。如何利用自动化的驱动来降低整个的费用,提高服务的提供和整个服务的质

2、量,保证快速地实施。以及面临现在不管是应用环境还是IT自身的架构建设也好,我们面临了不断更新的技术和服务的发展。在面临这样的服务和技术发展的时候,如何进行创新?我们今天的内容就IT服务管理的一些实践跟大家交流。首先,这是大家都很熟悉的Gartner关于IT成熟度的模型,从目前我们国内的用户来讲,大家都处在一些被动式的管理,有一部分用户在于主动式或者是面向服务的管理,或者是第二层次、第三层次做了工作。比如说主动的监控,尝试做一些容量和能力的规划方面的工作。我们来看,从我们最终的IT的管理怎么样去面向IT服务的管理来讲的,IBM的服务管理提出三个主要的思想,第一个主要的思想是怎么样实现一个可视化,

3、这是我们在一开始谈到的问题。如何能够把IT跟我们业务之间的关系,以及对业务之间的支持,我们能够用可视化的方式看到,能够评估、测量,并且能够支持我们日常的运维。第二个方面,我们把它总结为可控化,我们怎么样去了解我们现在所有的IT的资产,在这些IT的资产如何来支持我们日常的运维,以及IT的资产我们如何去对它做一个更重复地使用,和对他进行一个更高效地利用,从而减轻我们的成本和提高我们的服务质量,并且降低在管理过程当中的风险。第三个问题是自动化,在自动化这点上,我们不是说要有什么样的产品,或者是在IT管理建设服务某一个点上实施自动化,帮助我们提高效率。从自动化来讲,不管是可视化、可控化都贯穿在整个管理

4、的过程当中。自动化我们提供流程的自动化怎么实现,包括实现运维我们做自动化的部署、监控,在整个监控的方面,怎么样去实施自动化,来提高我们的生产效率。首先从可视化这个目标来讲,我们需要去洞察业务,我们需要去了解,现在的业务的状态是什么,我们的IT是怎么样去支持我们的业务的,直接能够从我们的IT业务的支持上面看到可交付的目标。从我们的解决方案来讲,我们需要提供实时的视图和实时的dashboard,包括我们从业务合规、运维整个了解现在资产的管理所需要的可用性,以及这个可用性是不是很好地实现了我们的业务目标。在我们的右边是给了大家一些可视化的视图,后面我们就这些可视化的内容进行展开沟通。第二个部门可控化

5、,刚才已经谈到了主要的核心思想是我们怎么样能够提供一个完善的控制,能够去了解到我们的现有的IT资产以及如何对我们的IT资产进行优化的利用。在讲到可控化这部分,大家会想是不是讲我们IT资产的管理,以及从ITLI来讲,更侧重于CMDB这样的管理,从后面整个运维的角度来讲,可控化对IT资产、CMDB的管理,不是在资产本身提供一个高效地利用率、管控也好,实际上对我们的运维过程怎么样实现可视化,怎么样把纷繁复杂的基础架构的事件、问题能够可视化变成业务影响。它在这部分来讲,提供了非常好的业务的技术支持。最后是自动化,将敏捷性融入到我们的运维当中,帮助我们快速地实现运维的目标。刚才我们从IBM服务管理三个比

6、较核心的思想和观点,从我们的实践来讲,大家会想到我们现在面临的是非常复杂的IT的架构。在我们这张图下面,大家可能看到的是在我们下面的这部分,不管是从我们的主机、开放平台、应用、网络、语音、传输等等整个IT的基础架构。这是我们现在面临的,从IT的视角看。从业务视角看的话,我所需要的是一个业务的交付,从银行业来看,我需要的是网上银行能够提供我们所承诺的服务级别,能够在我们用户所期望,业务目标所定义的一些响应时间也好,是在指标之内对我们广大的用户,是对业务的用户提供服务。我们现在IT和业务之间,我们怎么样来建立这种联系,以及怎么样实现运维,这是我们给出的一个实践的模型。在这样实践的模型当中,主要的部

7、分是三个层次,在金字塔模型最上端,是我们的业务所要实施的整个业务的管理。在中间的层次是一个会聚的运维的管理。下面这个层次来讲,是我们熟悉地传统IT的管理领域。我们定义为一个技术的专业领域的管理,包括对应用、网络、主机、安全、开放平台、存储等等的各个支持我们的IT基础架构的整个环境的各个专业领域的管理。我分了两部分探讨,一部分我们会侧重于在讲,根据我们现在运维的环境,我们怎么样在基础架构的层次做技术领域的专业的管理。另外一部分,探讨怎么样面向业务服务的管理。首先,我们从大家非常熟悉的领域开始,面向一个专业技术领域的管理。当我们回到各个专业技术领域,回到网络、应用、存储等等这些领域的时候,我们来看

8、这个领域当中,我们的运维目标是什么。可能作为一个网络部门的领导、员工来讲,我们似乎是说很难去把我们的网络跟业务之间做一个非常好的很一致、完全的对应。因为网络支持着很多的应用的运行,和我们商业的运行,在这样的情况下,我们从我们的运维目标来看,作为我们系统专业的领域,我们的运维目标是什么。在这个地方,我们总结了两个方面的运维目标。首先,运维目标是要保证我们的系统可用性。一谈到可用性,大家会谈到,我们怎么样去实现一个高可用性,我的可用性的能力是什么。这个地方我们定义是我们系统的可用性目标是满足我们的业务要求的。其次从运维的角度来讲,我们有非常重要的目标是在整个系统的生命周期的建设过程当中,如何利用这

9、样科学的数据的分析,来支持整个系统的持续地发展。这是从技术的专业领域来讲的运维目标,从现在不管是国内、国外,大家在技术领域的专业的管理领域里面,大家的一些成功的实践来讲,我们主要分为下面四个方面。第一个方面我们去提供了一个可视化地监控,或者说我们提供了可视化的视图。第二个方面是提供一个很坚固的事件基础,这是非常核心的一部分。参考业务影响关系定义鼓掌分类或级别,以及我们要采取什么措施尽量减轻或者是消除、预防这些能带来的影响。第三个方面是对所专注的这个基础架构领域,它的运行的数据全面的分析,这些分析是我们要定义哪些我们的KPI。这些KPI它的运行的绩效是怎么支撑业务的。第四个是建立流程化的管理平台

10、,支持运维灵活的要求。从这个层次来讲,包括我们跟国内很多的用户来做一些运维方面的工作,在建设的过程当中有很深的体会,有可能你建了非常好的网络管理系统、主机管理系统、存储管理系统或者是其他基础架构的管理子系统。但是会发现,这个系统很难在良性的环境下做持续地更新地满足我们的运维要求。实际上这方面通常存在的问题是我们只是构建这个技术平台,我们并没有去对如何让这个技术平台保证我们的业务目标,实现我们的IT运维目标这方面做相关的制度、流程化的支持,去使这个技术平台如何最大限度地去发挥它的作用。首先是建立一个坚固的事件基础,从技术平台来讲,我们是怎么样能够去众多的基础架构事件当中进行高效地处理。根据我们的

11、经验,在一个类似于一个省的规模的网络当中,即使仅仅是网络的一个专业领域一天的事件量,大概是在几十万条左右。这是我们很多用户一起建设当中做的统计数据,如何让这几十万条的数据发生之后,实际上真正影响到运维、影响到业务事件的氛围并不多。我们怎么样在这些事件当中抽取出对我们业务真正有影响的事件,并对其进行处理。所以这方面我们特别强调如何建立一个坚固事件的基础,在一个平台上,能够以高效地方式对它进行处理。在建立事件基础,事件量非常大,如果所有的事件都原始移过来都不行,这样的话,许多进行事件的自动压缩。我想强调,这样的压缩是不是可以从企业的需求出发做定制,不是说把原来的丢掉了进行压缩。建立坚固事件的基础还

12、有一部分是我们不需要说某个交换机的某个交换端口宕了,我们会进行什么影响,我们从事件分析、关联机制也好,我们需要从最基础的IT事件告诉我们。比如说是某一个营业部发生了中断,这样的信息会比某一个断口出现了端口宕这样的信息。不管是对于IT来讲,怎么判断优先级,以及业务来讲,都要有可视化。从我们的目标来讲,尽可能地采集更多的事件,但是从纷繁复杂的事件进行分析,告诉我们真正跟业务相关联的事件是什么,这些跟业务关联产生的事件,才是我们运维过程当中需要核心地处理和解决的问题。这是第一个方面建立一个坚固的事件基础。第二个方面,我们怎么样从我们各个基础当中做性能的分析支持我们的性能管理、后续的容量规划能力上的管

13、理。这个地方举了两个例子,一个是基于基线的性能分析,不是每一个单次、单点的分析,而是从我们整个的业务历史表现看。比如说金融业来讲,像网银的表现,每周一到星期天,以及每天的Array点到5点,整个的流量变化趋势是不一样的。我们通过基线的分析,我们怎么样去获得优化现在系统的容量,以及现在的系统容量是否能够支持业务不断增长的需要。在性能分析这部分,我们要进行一个预测,我们要从单独的组件,和整个业务应用组件的组合里面,我们分析现在提供的容量和性能是不是能够满足我们整个业务增长的需要。然后大概会在什么点的时候,如果当我们的业务增长到什么规模,我现在的IT基础架构要进行扩容和升级,这样的话,我们做预先的计

14、划,避免当业务的快速增长,而使我们的IT系统造成对业务增长的瓶颈。第三个实践方面来讲,怎么样去了解我们整个的IT的资产包括我们的网络、应用、应用之间的关系等等,包括网络之间的关系,从而对我们整个的IT资产实施控制,并为优化地使用提供一个基础。这是一些例子,关于IT的资产的报表。我们要去了解我们当前的使用率是多少,是不是有闲置的,是不是我们的容量。这部分的话,我们会去协同我们刚才谈到的容量的分析,为我们规划未来IT的服务对业务的支撑能力提供基础。第四个方面,从子系统的管理来讲,是怎么样建立一个流程化的平台,使大家日常运维的工作可以在流程化的平台上来进行一个可效的实施,所有的运维人员都会定义他的运

15、维角色和运维的职责,最后通过流程化的平台去履行他运维上的一些要求。这是一些视图的呈现,下面还有一个视图。在这个地方,前面我们的演讲里面也听到了我们怎么样对一些绩效等等进行考量,现在我们看到的视图,整个故障发生持续状态的实时的视图。我们再回忆一下刚才谈到金字塔的服务模型,刚才我们讲了最基础的一部分,也就是说整个IT专业领域的管理,以及在这个专业领域管理上的运维目标。有两点,一个是怎么样保证整个系统的可控性。第二个是对系统进行评估和分析规划未来的发展。另一方面除了两个运维目标来讲,跟大家分享了一些在国内的建设当中,我们比较多的四个方面的实践,建立一个可视化的视图,以及建立一个非常好的事件的基础,进

16、行性能和容量的分析。最后是说建立流程化的平台保证运维可以在一个企业所要求的一些制度的环境下面进行非常良好地运行。在后面这部分内容里面,我们会讲我们上面的两层。刚才这部分,我们更多地去看怎么样做基础架构的运维,后面来讲,我们偏重于怎么样把基础架构的运维跟我们的业务目标来进行结合,最终为我们的业务来服务。现在大家看到的这张总结的片子,是说我们对整个会聚管理,就刚才中间的这层,实际上当我在讲基础架构的各个专业子系统的管理的时候,大家有一些疑问了,网络只看网络的,系统只看系统的,应用只看应用的,存储只看存储的,谁来看业务,谁来对整个的业务目标负责,以及保证IT运维真正是实现业务目标的,所以我们要做后面

17、的事情。第一步我们所谈到的是做一个会聚的运维管理,在这个管理里面,不管是网络的、存储的、主机的开放平台、系统、应用、语音等等各个环境子系统的数据,实际上是需要送到会聚的平台,由会聚的平台进行处理,最终实现业务目标建立我们的服务模型来服务。在这个会聚的平台里面,我们在这个地方也总结了它的一些运维目标。这个时候,我们要做集中的IT运维管理,不再是网络看网络、系统看系统,网络和系统的运维人员在整个体系当中变成了二线,在一线来讲,我们要看整个IT的状态,以及对当前的IT的运维来进行一个快速响应。在这方面来讲,我们也总结了一些成功的建设实践,是建立一个整合的事件平台,这个时候不是面向专业的子领域的,是面

18、向整个基础架构的整合平台,以及如何进行一些可视化的方式来去看现在的IT基础架构的状态,以及现在业务的运行状态。基于我们现在所谈到的一个刚才讲了基础架构自身的管理问题,会聚的运维平台,我们最终是要实现一个更高的目标是怎么样进行一个业务服务的管理。在这个地方来讲,我们现在看到这张图跟大家看到基础架构管理的图非常类似。最下面是我们整个基础架构的内容,在基础架构的内容来讲,我们要通过一些基础手段对整个数据进行采集,包括依赖关系的采集、事件性能的采集、数据的采集,其他第三方的数据的采集。不管是从业务部门看可视化的视图,还是业务部门来看关注的不仅仅是我们IT提供的指标,可能还包括业务的基础指标,比如说当前

19、的环境下,某一个核心的业务吞吐量是什么。所以大家会看到,我们在整个体系管理的时候,大家可以认为,前面两部分是谈IT的数据,这边的数据不仅仅是来自IT系统自身的数据,还会来自于业务系统的数据。这些数据搜集到之后,我们需要对他们进行服务关联和服务化。我们怎么样建立可视化的视图,它的一些详细的情况是什么,业务人员所关注的业务的指标、当前的状态是什么,IT运维的主管领导所关心的运维指标是什么,以及详细的运维人员关注的运维信息又是什么,我们怎么样去获得,怎么样去处理,最终保证我们去实现我们的服务管理的最终的目标。在这里,我给了大家一个事例,这个事例看起来是从一个事件的角度我们尝试去关注一个基础架构的问题

20、,怎么样跟我们的业务进行关联的。在这个事例当中,我们看到最上面的事件,从基础架构搜集过来的事件,是发生在一个服务器的名字叫做ERP-APP-01是利用率超高的事件,这是原始的。我们忽略了中间很多传统的事件,看到最后,可视化的系统告诉了我们什么样的信息。他告诉我们CPU使用率超高的事件,导致了应用服务器速度的下降,而应用服务器是ERP的关键组件,它又支持了应用,最后,实际上还在告诉你一些结论,因为CPU应用服务的下降,导致超过了1个Min的损失,即使是这样的事件。先不看对整个高层领导有影响,业务人员最后只关注这一点,我的影响是什么。但是对我们的IT运维人员来讲,这样的信息非常有意义。我们看到了这

21、些信息我们怎么做我们运维的优先级的划分,我们肯定是能做出来的。这个PPT里面讲了怎么样从第一步到我们现在所看到的业务信息的一步中间的一些过程,因为时间的关系不详细做解释,怎么样做规范化、丰富、怎么样从外部的数据当中获得关联,最终从一个简单的信息告诉我们业务影响的关系,怎么样去做不是我们今天的重点,如果有机会以后希望能够跟大家做一些详细地细节地沟通。我们实际上已经从一个事例的角度来看了一下IT的基础架构跟业务之间关联关系地一角。我们怎么样来建立一个IT的基础架构跟IT之间的关联,首先要了解一件事情,现在大家看到左下角基础架构正在发生什么事情,我们知道发生了什么事情之后,我们需要采取什么样的行动做

22、解决,以及这些事情是如何影响到了业务。我们把这样的一个从基础架构的事件的发生到对业务的影响,以及实现我们整个业务管理的目标,我们把它分解为6个步骤,或者是叫做6大方面可能会更合适。第一部分是监控,监控所要实施的主要的目标是如何去获知基础架构现在发生了什么。第二个步骤是体验,我除了从监控的这个角度上能够获取这样的数据之外,我还要知道我们现在的一些应用的最终的用户,他对整个应用的体验是什么,很有可能从基础架构看网络、主机等设备都是好的,但是有一个问题,用户访问这个业务访问不了,或者是非常慢。第二个来讲,我们怎么样看最终用户或者是IT的应用,我们的业务的用户他的体现。第三个部分是他们之间的依赖关系,

23、大家回忆一下我讲的例子,从简单的CPU超标的事件,到我们整个业务详细的信息。这块来讲,如果没有跟业务依赖关系的关联我们是没有办法实现的。这部分来讲,有一部分非常重要的是依赖关系,除了支持可视化的分析之外,还在支持其他方面。第四大方面非常重要的是业务指标,哪些业务指标是被关注的,以及IT的基础架构的事件问题,IT对业务指标的影响是什么。第五个非常大的方面是视图,在视图里面分为两种,一种是面向业务的,另外一种是从IT的运维来看的运维的视图。第六步我们叫做行动,包括我们在刚才讲的三化当中,非常重要的最后的一化自动化。我对这6个步骤给大家做一个更详尽地分解。第一个步骤是监视我们服务的基础架构,这个服务

24、架构内容里面就包括我们事件从终端用户来讲,安全、网络等等过来的基础事件。最终通过服务架构监控可以看到我们右边的视图。大家看到我右边的视图服务模型已经出来了,这块对基础架构的监控你所能够看到的只是右上角视图的左边的部分,只能看到发生了什么,不能准确获知发生的信息跟我们整个业务之间的关系是什么。现在大家认为业务模型这部分对大家来讲是不可见的。第二个步骤来讲,衡量用户体验,主动的探测和主动的用户体现仿真去获得我们用户体现的数据。第三个步骤来讲,看到整个服务的依赖关系,第一个步骤我们只是看到了这张图的左边的这部分,IT的基础架构发生了什么,而这张,我们做到这样的步骤来讲,实际上整个基础架构之间的关系,

25、不仅仅是物理连接关系。而是他们怎么样支撑我们的应用关系、业务关系,我们可以建立出这样的服务模型。当我们建立这样的服务模型之后,我们的基础架构发生的事情就可以跟我们的服务模型进行匹配了。第四个步骤当中,我们去看跟我们业务相关的关键的性能的指标,在查看这些关键性能指标里面,我需要强调的是一个是我们从IT的角度看我们的应能指标,还要从业务来看,包括吞吐量。有一些用户做了这样的工作,包括当前的IT基础架构的性能指标,跟用户的数据基础指标像吞吐量、在线交易量,放在一起做分析,去看IT基础架构的指标是怎么样对用户的业务指标产生影响的。第五个方面来讲,我们这些数据都有了,我们怎么样通过非常好的可视化的方法来

26、提供我们服务的视图。在这里给了大家一些服务视图的事例,这是不同层次的视图。我们看到了全局的视图,告诉了我们整个子系统的状态和应用的状态。每个子系统内部的状态,像这样的一些视图来讲,更偏向于IT运维的视图。我当前的事件是什么,以及当前的事件对我们应用的影响情况是什么。这是基于服务的一些视图,我们IT环境当中帮助台的情况,服务水平的合规情况,以及详细的整个接触架构关系的报表情况等等。这是最后一步实施自动化,我需要再强调一下,自动化不仅仅是我们很容易去理解的自动部署、自动容量、自动探测,实际上自动化是说在我们整个IT服务管理当中,是贯穿始终的,你会发现会贯穿于各个部门的,在其他五个方面都会出现。最后

27、,可能我就再做一下总结,刚才我们主要是从三个层面,首先介绍了IBM服务管理的三个方面,还有刚才讲到的可视化、可控化、自动化等等三个方面。还有一部分,从整个基础架构管理到IT服务管理渐进的层次来讲,给大家介绍了在IT服务管理的一些实践,大家有其他的问题,在会议之后可以进行进一步地沟通。非常感谢大家的宝贵时间,谢谢。刘静:非常荣幸今天有机会在这里跟大家一起探讨一IT服务管理的实践。实际上从IT服务管理的发展来看,大家在做各种各样的实践,包括在建设按照ITLI的最佳实际,结合国内的实际情况来建设相关的相关管理流程,而且不断地使这样的管理流程走向更加成熟。即使是这样,我们仍然发现,好象持续在做这些管理

28、流程的一些实施的话,在我们整个的过程当中仍然碰到了困难。比如说我们很难看到一个跟业务相关的视图,比如说我们说在支持IT业务的运维和发展,我们怎麽样看到跟IT业务相关视图以及业务的可持续化,是我们很难解决的问题。如何利用自动化的驱动来降低整个的费用,提高服务的提供和整个服务的质量,保证快速地实施。以及面临现在不管是应用环境还是IT自身的架构建设也好,我们面临了不断更新的技术和服务的发展。在面临这样的服务和技术发展的时候,如何进行创新?我们今天的内容就IT服务管理的一些实践跟大家交流。首先,这是大家都很熟悉的Gartner关於IT成熟度的模型,从目前我们国内的用户来讲,大家都处在一些被动式的管理,

29、有一部分用户在於主动式或者是面向服务的管理,或者是第二层次、第三层次做了工作。比如说主动的监控,尝试做一些容量和能力的规划方面的工作。我们来看,从我们最终的IT的管理怎麽样去面向IT服务的管理来讲的,IBM的服务管理提出三个主要的思想,第一个主要的思想是怎麽样实现一个可视化,这是我们在一开始谈到的问题。如何能够把IT跟我们业务之间的关系,以及对业务之间的支持,我们能够用可视化的方式看到,能够评估、测量,并且能够支持我们日常的运维。第二个方面,我们把它总结为可控化,我们怎麽样去了解我们现在所有的IT的资产,在这些IT的资产如何来支持我们日常的运维,以及IT的资产我们如何去对它做一个更重复地使用,

30、和对他进行一个更高效地利用,从而减轻我们的成本和提高我们的服务质量,并且降低在管理过程当中的风险。第三个问题是自动化,在自动化这点上,我们不是说要有什麽样的产品,或者是在IT管理建设服务某一个点上实施自动化,帮助我们提高效率。从自动化来讲,不管是可视化、可控化都贯穿在整个管理的过程当中。自动化我们提供流程的自动化怎麽实现,包括实现运维我们做自动化的部署、监控,在整个监控的方面,怎麽样去实施自动化,来提高我们的生产效率。首先从可视化这个目标来讲,我们需要去洞察业务,我们需要去了解,现在的业务的状态是什麽,我们的IT是怎麽样去支持我们的业务的,直接能够从我们的IT业务的支持上面看到可交付的目标。从

31、我们的解决方案来讲,我们需要提供实时的视图和实时的dashboard,包括我们从业务合规、运维整个了解现在资产的管理所需要的可用性,以及这个可用性是不是很好地实现了我们的业务目标。在我们的右边是给了大家一些可视化的视图,後面我们就这些可视化的内容进行展开沟通。第二个部门可控化,刚才已经谈到了主要的核心思想是我们怎麽样能够提供一个完善的控制,能够去了解到我们的现有的IT资产以及如何对我们的IT资产进行优化的利用。在讲到可控化这部分,大家会想是不是讲我们IT资产的管理,以及从ITLI来讲,更侧重於CMDB这样的管理,从後面整个运维的角度来讲,可控化对IT资产、CMDB的管理,不是在资产本身提供一个

32、高效地利用率、管控也好,实际上对我们的运维过程怎麽样实现可视化,怎麽样把纷繁复杂的基础架构的事件、问题能够可视化变成业务影响。它在这部分来讲,提供了非常好的业务的技术支持。最後是自动化,将敏捷性融入到我们的运维当中,帮助我们快速地实现运维的目标。刚才我们从IBM服务管理三个比较核心的思想和观点,从我们的实践来讲,大家会想到我们现在面临的是非常复杂的IT的架构。在我们这张图下面,大家可能看到的是在我们下面的这部分,不管是从我们的主机、开放平台、应用、网络、语音、传输等等整个IT的基础架构。这是我们现在面临的,从IT的视角看。从业务视角看的话,我所需要的是一个业务的交付,从银行业来看,我需要的是网

33、上银行能够提供我们所承诺的服务级别,能够在我们用户所期望,业务目标所定义的一些响应时间也好,是在指标之内对我们广大的用户,是对业务的用户提供服务。我们现在IT和业务之间,我们怎麽样来建立这种联系,以及怎麽样实现运维,这是我们给出的一个实践的模型。在这样实践的模型当中,主要的部分是三个层次,在金字塔模型最上端,是我们的业务所要实施的整个业务的管理。在中间的层次是一个会聚的运维的管理。下面这个层次来讲,是我们熟悉地传统IT的管理领域。我们定义为一个技术的专业领域的管理,包括对应用、网络、主机、安全、开放平台、存储等等的各个支持我们的IT基础架构的整个环境的各个专业领域的管理。我分了两部分探讨,一部

34、分我们会侧重於在讲,根据我们现在运维的环境,我们怎麽样在基础架构的层次做技术领域的专业的管理。另外一部分,探讨怎麽样面向业务服务的管理。首先,我们从大家非常熟悉的领域开始,面向一个专业技术领域的管理。当我们回到各个专业技术领域,回到网络、应用、存储等等这些领域的时候,我们来看这个领域当中,我们的运维目标是什麽。可能作为一个网络部门的领导、员工来讲,我们似乎是说很难去把我们的网络跟业务之间做一个非常好的很一致、完全的对应。因为网络支持着很多的应用的运行,和我们商业的运行,在这样的情况下,我们从我们的运维目标来看,作为我们系统专业的领域,我们的运维目标是什麽。在这个地方,我们总结了两个方面的运维目

35、标。首先,运维目标是要保证我们的系统可用性。一谈到可用性,大家会谈到,我们怎麽样去实现一个高可用性,我的可用性的能力是什麽。这个地方我们定义是我们系统的可用性目标是满足我们的业务要求的。其次从运维的角度来讲,我们有非常重要的目标是在整个系统的生命周期的建设过程当中,如何利用这样科学的数据的分析,来支持整个系统的持续地发展。这是从技术的专业领域来讲的运维目标,从现在不管是国内、国外,大家在技术领域的专业的管理领域里面,大家的一些成功的实践来讲,我们主要分为下面四个方面。第一个方面我们去提供了一个可视化地监控,或者说我们提供了可视化的视图。第二个方面是提供一个很坚固的事件基础,这是非常核心的一部分

36、。参考业务影响关系定义鼓掌分类或级别,以及我们要采取什麽措施尽量减轻或者是消除、预防这些能带来的影响。第三个方面是对所专注的这个基础架构领域,它的运行的数据全面的分析,这些分析是我们要定义哪些我们的KPI。这些KPI它的运行的绩效是怎麽支撑业务的。第四个是建立流程化的管理平台,支持运维灵活的要求。从这个层次来讲,包括我们跟国内很多的用户来做一些运维方面的工作,在建设的过程当中有很深的体会,有可能你建了非常好的网络管理系统、主机管理系统、存储管理系统或者是其他基础架构的管理子系统。但是会发现,这个系统很难在良性的环境下做持续地更新地满足我们的运维要求。实际上这方面通常存在的问题是我们只是构建这个

37、技术平台,我们并没有去对如何让这个技术平台保证我们的业务目标,实现我们的IT运维目标这方面做相关的制度、流程化的支持,去使这个技术平台如何最大限度地去发挥它的作用。首先是建立一个坚固的事件基础,从技术平台来讲,我们是怎麽样能够去众多的基础架构事件当中进行高效地处理。根据我们的经验,在一个类似於一个省的规模的网络当中,即使仅仅是网络的一个专业领域一天的事件量,大概是在几十万条左右。这是我们很多用户一起建设当中做的统计数据,如何让这几十万条的数据发生之後,实际上真正影响到运维、影响到业务事件的氛围并不多。我们怎麽样在这些事件当中抽取出对我们业务真正有影响的事件,并对其进行处理。所以这方面我们特别强

38、调如何建立一个坚固事件的基础,在一个平台上,能够以高效地方式对它进行处理。在建立事件基础,事件量非常大,如果所有的事件都原始移过来都不行,这样的话,许多进行事件的自动压缩。我想强调,这样的压缩是不是可以从企业的需求出发做定制,不是说把原来的丢掉了进行压缩。建立坚固事件的基础还有一部分是我们不需要说某个交换机的某个交换端口宕了,我们会进行什麽影响,我们从事件分析、关联机制也好,我们需要从最基础的IT事件告诉我们。比如说是某一个营业部发生了中断,这样的信息会比某一个断口出现了端口宕这样的信息。不管是对於IT来讲,怎麽判断优先级,以及业务来讲,都要有可视化。从我们的目标来讲,尽可能地采集更多的事件,

39、但是从纷繁复杂的事件进行分析,告诉我们真正跟业务相关联的事件是什麽,这些跟业务关联产生的事件,才是我们运维过程当中需要核心地处理和解决的问题。这是第一个方面建立一个坚固的事件基础。第二个方面,我们怎麽样从我们各个基础当中做性能的分析支持我们的性能管理、後续的容量规划能力上的管理。这个地方举了两个例子,一个是基於基线的性能分析,不是每一个单次、单点的分析,而是从我们整个的业务历史表现看。比如说金融业来讲,像网银的表现,每周一到星期天,以及每天的Array点到5点,整个的流量变化趋势是不一样的。我们通过基线的分析,我们怎麽样去获得优化现在系统的容量,以及现在的系统容量是否能够支持业务不断增长的需要

40、。在性能分析这部分,我们要进行一个预测,我们要从单独的组件,和整个业务应用组件的组合里面,我们分析现在提供的容量和性能是不是能够满足我们整个业务增长的需要。然後大概会在什麽点的时候,如果当我们的业务增长到什麽规模,我现在的IT基础架构要进行扩容和升级,这样的话,我们做预先的计划,避免当业务的快速增长,而使我们的IT系统造成对业务增长的瓶颈。第三个实践方面来讲,怎麽样去了解我们整个的IT的资产包括我们的网络、应用、应用之间的关系等等,包括网络之间的关系,从而对我们整个的IT资产实施控制,并为优化地使用提供一个基础。这是一些例子,关於IT的资产的报表。我们要去了解我们当前的使用率是多少,是不是有闲

41、置的,是不是我们的容量。这部分的话,我们会去协同我们刚才谈到的容量的分析,为我们规划未来IT的服务对业务的支撑能力提供基础。第四个方面,从子系统的管理来讲,是怎麽样建立一个流程化的平台,使大家日常运维的工作可以在流程化的平台上来进行一个可效的实施,所有的运维人员都会定义他的运维角色和运维的职责,最後通过流程化的平台去履行他运维上的一些要求。这是一些视图的呈现,下面还有一个视图。在这个地方,前面我们的演讲里面也听到了我们怎麽样对一些绩效等等进行考量,现在我们看到的视图,整个故障发生持续状态的实时的视图。我们再回忆一下刚才谈到金字塔的服务模型,刚才我们讲了最基础的一部分,也就是说整个IT专业领域的

42、管理,以及在这个专业领域管理上的运维目标。有两点,一个是怎麽样保证整个系统的可控性。第二个是对系统进行评估和分析规划未来的发展。另一方面除了两个运维目标来讲,跟大家分享了一些在国内的建设当中,我们比较多的四个方面的实践,建立一个可视化的视图,以及建立一个非常好的事件的基础,进行性能和容量的分析。最後是说建立流程化的平台保证运维可以在一个企业所要求的一些制度的环境下面进行非常良好地运行。在後面这部分内容里面,我们会讲我们上面的两层。刚才这部分,我们更多地去看怎麽样做基础架构的运维,後面来讲,我们偏重於怎麽样把基础架构的运维跟我们的业务目标来进行结合,最终为我们的业务来服务。现在大家看到的这张总结

43、的片子,是说我们对整个会聚管理,就刚才中间的这层,实际上当我在讲基础架构的各个专业子系统的管理的时候,大家有一些疑问了,网络只看网络的,系统只看系统的,应用只看应用的,存储只看存储的,谁来看业务,谁来对整个的业务目标负责,以及保证IT运维真正是实现业务目标的,所以我们要做後面的事情。第一步我们所谈到的是做一个会聚的运维管理,在这个管理里面,不管是网络的、存储的、主机的开放平台、系统、应用、语音等等各个环境子系统的数据,实际上是需要送到会聚的平台,由会聚的平台进行处理,最终实现业务目标建立我们的服务模型来服务。在这个会聚的平台里面,我们在这个地方也总结了它的一些运维目标。这个时候,我们要做集中的

44、IT运维管理,不再是网络看网络、系统看系统,网络和系统的运维人员在整个体系当中变成了二线,在一线来讲,我们要看整个IT的状态,以及对当前的IT的运维来进行一个快速响应。在这方面来讲,我们也总结了一些成功的建设实践,是建立一个整合的事件平台,这个时候不是面向专业的子领域的,是面向整个基础架构的整合平台,以及如何进行一些可视化的方式来去看现在的IT基础架构的状态,以及现在业务的运行状态。基於我们现在所谈到的一个刚才讲了基础架构自身的管理问题,会聚的运维平台,我们最终是要实现一个更高的目标是怎麽样进行一个业务服务的管理。在这个地方来讲,我们现在看到这张图跟大家看到基础架构管理的图非常类似。最下面是我

45、们整个基础架构的内容,在基础架构的内容来讲,我们要通过一些基础手段对整个数据进行采集,包括依赖关系的采集、事件性能的采集、数据的采集,其他第三方的数据的采集。不管是从业务部门看可视化的视图,还是业务部门来看关注的不仅仅是我们IT提供的指标,可能还包括业务的基础指标,比如说当前的环境下,某一个核心的业务吞吐量是什麽。所以大家会看到,我们在整个体系管理的时候,大家可以认为,前面两部分是谈IT的数据,这边的数据不仅仅是来自IT系统自身的数据,还会来自於业务系统的数据。这些数据搜集到之後,我们需要对他们进行服务关联和服务化。我们怎麽样建立可视化的视图,它的一些详细的情况是什麽,业务人员所关注的业务的指

46、标、当前的状态是什麽,IT运维的主管领导所关心的运维指标是什麽,以及详细的运维人员关注的运维信息又是什麽,我们怎麽样去获得,怎麽样去处理,最终保证我们去实现我们的服务管理的最终的目标。在这里,我给了大家一个事例,这个事例看起来是从一个事件的角度我们尝试去关注一个基础架构的问题,怎麽样跟我们的业务进行关联的。在这个事例当中,我们看到最上面的事件,从基础架构搜集过来的事件,是发生在一个服务器的名字叫做ERP-APP-01是利用率超高的事件,这是原始的。我们忽略了中间很多传统的事件,看到最後,可视化的系统告诉了我们什麽样的信息。他告诉我们CPU使用率超高的事件,导致了应用服务器速度的下降,而应用服务

47、器是ERP的关键组件,它又支持了应用,最後,实际上还在告诉你一些结论,因为CPU应用服务的下降,导致超过了1个Min的损失,即使是这样的事件。先不看对整个高层领导有影响,业务人员最後只关注这一点,我的影响是什麽。但是对我们的IT运维人员来讲,这样的信息非常有意义。我们看到了这些信息我们怎麽做我们运维的优先级的划分,我们肯定是能做出来的。这个PPT里面讲了怎麽样从第一步到我们现在所看到的业务信息的一步中间的一些过程,因为时间的关系不详细做解释,怎麽样做规范化、丰富、怎麽样从外部的数据当中获得关联,最终从一个简单的信息告诉我们业务影响的关系,怎麽样去做不是我们今天的重点,如果有机会以後希望能够跟大

48、家做一些详细地细节地沟通。我们实际上已经从一个事例的角度来看了一下IT的基础架构跟业务之间关联关系地一角。我们怎麽样来建立一个IT的基础架构跟IT之间的关联,首先要了解一件事情,现在大家看到左下角基础架构正在发生什麽事情,我们知道发生了什麽事情之後,我们需要采取什麽样的行动做解决,以及这些事情是如何影响到了业务。我们把这样的一个从基础架构的事件的发生到对业务的影响,以及实现我们整个业务管理的目标,我们把它分解为6个步骤,或者是叫做6大方面可能会更合适。第一部分是监控,监控所要实施的主要的目标是如何去获知基础架构现在发生了什麽。第二个步骤是体验,我除了从监控的这个角度上能够获取这样的数据之外,我

49、还要知道我们现在的一些应用的最终的用户,他对整个应用的体验是什麽,很有可能从基础架构看网络、主机等设备都是好的,但是有一个问题,用户访问这个业务访问不了,或者是非常慢。第二个来讲,我们怎麽样看最终用户或者是IT的应用,我们的业务的用户他的体现。第三个部分是他们之间的依赖关系,大家回忆一下我讲的例子,从简单的CPU超标的事件,到我们整个业务详细的信息。这块来讲,如果没有跟业务依赖关系的关联我们是没有办法实现的。这部分来讲,有一部分非常重要的是依赖关系,除了支持可视化的分析之外,还在支持其他方面。第四大方面非常重要的是业务指标,哪些业务指标是被关注的,以及IT的基础架构的事件问题,IT对业务指标的

50、影响是什麽。第五个非常大的方面是视图,在视图里面分为两种,一种是面向业务的,另外一种是从IT的运维来看的运维的视图。第六步我们叫做行动,包括我们在刚才讲的三化当中,非常重要的最後的一化自动化。我对这6个步骤给大家做一个更详尽地分解。第一个步骤是监视我们服务的基础架构,这个服务架构内容里面就包括我们事件从终端用户来讲,安全、网络等等过来的基础事件。最终通过服务架构监控可以看到我们右边的视图。大家看到我右边的视图服务模型已经出来了,这块对基础架构的监控你所能够看到的只是右上角视图的左边的部分,只能看到发生了什麽,不能准确获知发生的信息跟我们整个业务之间的关系是什麽。现在大家认为业务模型这部分对大家

51、来讲是不可见的。第二个步骤来讲,衡量用户体验,主动的探测和主动的用户体现仿真去获得我们用户体现的数据。第三个步骤来讲,看到整个服务的依赖关系,第一个步骤我们只是看到了这张图的左边的这部分,IT的基础架构发生了什麽,而这张,我们做到这样的步骤来讲,实际上整个基础架构之间的关系,不仅仅是物理连接关系。而是他们怎麽样支撑我们的应用关系、业务关系,我们可以建立出这样的服务模型。当我们建立这样的服务模型之後,我们的基础架构发生的事情就可以跟我们的服务模型进行匹配了。第四个步骤当中,我们去看跟我们业务相关的关键的性能的指标,在查看这些关键性能指标里面,我需要强调的是一个是我们从IT的角度看我们的应能指标,

52、还要从业务来看,包括吞吐量。有一些用户做了这样的工作,包括当前的IT基础架构的性能指标,跟用户的数据基础指标像吞吐量、在线交易量,放在一起做分析,去看IT基础架构的指标是怎麽样对用户的业务指标产生影响的。第五个方面来讲,我们这些数据都有了,我们怎麽样通过非常好的可视化的方法来提供我们服务的视图。在这里给了大家一些服务视图的事例,这是不同层次的视图。我们看到了全局的视图,告诉了我们整个子系统的状态和应用的状态。每个子系统内部的状态,像这样的一些视图来讲,更偏向於IT运维的视图。我当前的事件是什麽,以及当前的事件对我们应用的影响情况是什麽。这是基於服务的一些视图,我们IT环境当中帮助台的情况,服务水平的合规情况,以及详细的整个接触架构关系的报表情况等等。这是最後一步实施自动化,我需要再强调一下,自动化不仅仅是我们很容易去理解的自动部署、自动容量、自动探测,实际上自动化是说在我们整个IT服务管理当中,是贯穿始终的,你会发现会贯穿於各个部门的,在其他五个方面都会出现。最後,可能我就再做一下总结,刚才我们主要是从三个层面,首先介绍了IBM服务管理的三个方面,还有刚才讲到的可视化、可控化、自动化等等三个方面。还有一部分,从整个基础架构管理到IT服务管理渐进的层次来讲,给大家介绍了在IT服务管理的一些实践,大家有其他的问题,在会议之後可以进行进一步地沟通。非常感谢大家的宝贵时间,谢谢。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!