中小银行运维自动化课件



《中小银行运维自动化课件》由会员分享,可在线阅读,更多相关《中小银行运维自动化课件(26页珍藏版)》请在装配图网上搜索。
1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,中小银行运维自动化,管理,中小银行运维自动化管理,1,目录,2,运维管理中的操作控制难题,1,运维标准化自动化解决之道,2,作业任务精确控制,监控巡检准确定位,应急处置自动调度,.,运维标准化自动化实施要点,3,目录2运维管理中的操作控制难题1运维标准化自动化解决之道2作,2,运维管理总体目标,-,防范风险、优质服务、控制成本、系统建设,稳定运行,精确控制,资源管理,标准服务,应用整体监控,事件处置管理,知识维护使用,变更发布管理,运维服务标准化,运行成本可计量,技术规范体系化,运维架构规范化,制度体系层次
2、化,运维管理,作业调度管理,安装规范核对,巡检全程控制,配置信息管控,设备资源管理,运行数据采集,资源性能分析,容量总体规划,数据资源管理,精确操控管理是运维管理的基础,也是科技服务质量的保障,运维管理总体目标-防范风险、优质服务、控制成本、系统建设稳定,3,作业管理难题,-,漏做错做、任务异常、执行风险、隐患排查,大型商业银行每日批作业任务数已达数千个,中小型商业银行也近几百个,随着业务复杂度及三方业务增加,任务数有增无减,并且变更频率教高,,控制难度增加,;,多个系统、多个作业任务之间形成了非常复杂的逻辑关系,仅靠表格等手工管理方式,很难,降低任务执行差错率,;,针对特殊日期的批作业任务临
3、时变更,很难精确控制,,一旦作业任务执行失误,影响范围较大,很难处理,;,很难精确记录作业任务执行时长、时点、报错等情况,无法统计分析,,发现作业任务执行过程中的潜在风险,;,.,作业管理,作业管理难题-漏做错做、任务异常、执行风险、隐患排查大型商业,4,作业管理手段,-,任务登记、变更控制、逻辑调度、过程记录、隐患排查,任务定义?关系管控?技术标准?过程监控?结果检查?故障联查?任务优化?,作业管理,作业管理手段-任务登记、变更控制、逻辑调度、过程记录、隐患排,5,运行监控难题,-,预警、发现、定位、排查、隐患、预估、采集、资产,监控巡检,关键业务交易出现问题,想排查故障原因,那么:,网络环
4、境如何?,网络报文正常?,系统资源有瓶颈吗?,中间件有问题吗?,数据库有瓶颈?,应用程序有报错?,业务数据有问题吗?,客户请求端状态如何?,运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产,6,运行监控难题,-,预警、发现、定位、排查、隐患、预估、采集、资产,监控巡检,20,13,年,3,月,17,日,监控报警情况,-,缺乏网络通路质量检测直接报警【,只有表象报警、无原因报警,】,15:37 ECIF,系统:三条报警,ToFront 0307 error,、,ToFront 0307 error,服务测试异常,15:38,收单系统:,03801 Success rate is lo
5、w!Pb751 BUSY,!,15:40,电子支付系统:,EPAY thread is busy,15:44,个贷风险管理系统:,plms4,和,plms2,、,plms5,、,plms6,阻塞线程数高、,15:44,信贷风险流程管理系统:,weblogic,线程数高、,jdbc,连接池等待,15:45,操作风险管理系统,session,锁等待,15:45,图前监控采集机,10.1.7.15,报错,15:46,验印系统,ssl,握手失败,分析:,1,、从,15:37,到,15:46,,,10,分钟内统一监控平台共有,19,条应用系统,1,级告警,但因总行网络环境监控手段的缺失,未能第一时间发现
6、网络线路质量问题,因此,如何提早发现网络通路问题,如何快速定位故障点,是故障早发现快解决的关键。,2013,年,3,月,17,日网络通路典型故障,运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产,7,应急难题,-,经验积累、工具标准化、逻辑关系控制、快速准确执行?,应急处置,应急难题-经验积累、工具标准化、逻辑关系控制、快速准确执行?,8,其它运维操作难题,-,数据全程管理、标准化变更发布、环境合规检查、资产动态采集验证,其它运维操作,其它运维操作难题-数据全程管理、标准化变更发布、环境合规检查,9,中小银行运维标准化自动化的意义-,人员、经验、风险、成本,实施运维操作自动化的关键
7、目标是什么?:,运维操作管理应该细分为如下几个领域,每个领域的具体目标是不同的:1)操作控制:准确调度;2)监控诊断:固化知识;3)应急处置:精确执行;4)变更发布:控制差错;5)规范检查:准确核对;6)资产采集:信息准确;7)数据管理:全程控制;,如何有重点分步骤的实施运维操作自动化?:,根据细化后的运维操作流域及其管理目标,分别设计方案及标准,然后按照:首先标准化,其次自动化,最后制度化的路线进行实施;,运维操作自动化与哪些运维管理环节相关?,:,与一线建设、事件管理、应急处置、数据管理、运维标准化等运维管理环节密切相关,同时考虑人力配备、技术能力问题【短期引入】;,如何保持运维操作标准化
8、的持续性?:,通过问题日常跟踪机制【日积月累】、运维操作维护工作流程【查缺补漏】、相关人员岗位规划、以及工具持续优化【实用原则】达成;,意义及思考,中小银行运维标准化自动化的意义-人员、经验、风险、成本实施,10,目录,11,运维管理中的操作控制难题,1,运维标准化自动化解决之道,2,运维自动化领域的细分,标准化是自动化的前提,管理体系是有效实现的基础,.,运维标准化自动化实施要点,3,目录11运维管理中的操作控制难题1运维标准化自动化解决之道2,11,运维操作领域细分,-,领域不同,目标及要求则不同,实现策略与方法不同,操作控制:,常规操作任务的定义、调度、执行、监控、变更、维护、优化,作业
9、调度:风险控制、运行评测、变更控制、配套检查,操作控制:配置备份、环境比对、时点检查、标准安装,数据操作:系统备份、业务备份、恢复执行、查询流程、销毁控制,监控诊断:,报警判断、故障定向、问题定位、二次采集、标准处置、资产核对,运行监测:系统、应用、数据、外联环节的主动探测,运行数据采集,故障诊断:监控集成、二次判断、故障定位、现场采集,故障处置:处置执行、状态判断、可用验证、故障隔离,应急处置:,应急环境与条件自动检测、应急流程实现与维护、应急操作自动执行,变更发布:,变更评审关键点管理(非功能需求在线核对)、应用发布自动化(标准)、系统变更自动化(规范),规范检查:,监管/管理规范核对、安
10、全自动检测、配置信息自动核对、安装规范,运维操作领域细分-领域不同,目标及要求则不同,实现策略与方法,12,运维操作管理的实现:,1)标准化;2)工具化;3)自动化;4)制度化,运维操作管理的实现:1)标准化;2)工具化;3)自动化;4),13,作业管理体系,-,制度细则、技术规范、监测优化,作业管理体系,作业管理体系-制度细则、技术规范、监测优化作业管理体系,14,应急操作管理体系,-,自上而下、从头落实、技术细化、持续改进,应急管理体系,整体,预案,技术,预案,系统,手册,技术,演练,持续,维护,识别业务风险,控制故障影响,指导整体工作,明确故障升级及处置整体流程,建立规范,整体了解关键业
11、务系统结构,梳理各类故障处置方法,以实战出发设计演练场景,验证操作有效性,将系统的变更、典型故障,及时维护到应急管理手册之中,技术操控管理重点范畴,业务影响分析,整体预案制定,事件定级,流程设计,系统结构梳理,故障处置步骤,日常变更管理,演练场景设计,典型故障管理,实操与评测,分析建立设计实操评估,整体工作落实策略,应急操作管理体系-自上而下、从头落实、技术细化、持续改进应急,15,监控巡检管理体系,-,认识对象、明确指标、操作测量、评估优化,监控管理体系,监控巡检管理体系-认识对象、明确指标、操作测量、评估优化监控,16,目录,17,运维管理中的操作控制难题,1,运维标准化自动化解决之道,2
12、,运维操作经验的积累与获取,识别阶段工作的重点与难点,工具适用性选择与人员调整,.,运维标准化自动化实施要点,3,目录17运维管理中的操作控制难题1运维标准化自动化解决之道2,17,作业管理实施要点,-,识别作业管理关键点、分析关键问题分布实现,作业管理实施,作业逻辑控制,:各个作业任务之间往往存在先后逻辑关系,尤其是跨应用系统的逻辑管理需要严格控制,作业时间调度,:很多作业需要控制执行日期及时间,如周一至周五某时刻做,每月最后工作日做等等,作业权限控制,:关键作业需要特定角色或者多人复核等,需要进行严格控制,作业自动执行,:对于将要实施自动执行的任务,应具备哪些条件、应如何改造、如何控制风险
13、,作业临时干预,:在特殊情况下,如业务部门特殊要求,某些作业不按照计划的时间等条件执行,能否有效控制是关键,作业管理成体系,:对于作业管理中的人员、信息、流程等要素进行系统化管理,将作业的基础信息、变更流程、人员工作等环节落实在一套管理制度及工具中,作业变更标准化,:严格控制作业任务在系统投产、节假日处理等情况下的变更及实施,作业管理实施要点-识别作业管理关键点、分析关键问题分布实现作,18,应急处置面临的复杂性,-,系统间关联性高、同城异地灾备环境,应急处置实施,应急处置面临的复杂性-系统间关联性高、同城异地灾备环境应急处,19,应急处置操控实施,-,处置操作标准化、整体设计处置流程、自动操
14、控,应急处置实施,应急处置操控实施-处置操作标准化、整体设计处置流程、自动操控,20,监测采集实施,-,识别监测对象与指标、监测采集过程标准化、实时自动监测采集,监测采集实施,监测采集实施-识别监测对象与指标、监测采集过程标准化、实时自,21,监测采集实施,-,运行数据采集目标确定、采集手段梳理、采集流程设计实现,监测采集实施,监测采集实施-运行数据采集目标确定、采集手段梳理、采集流程设,22,关键生产环节的可用性保障,-,梳理整体环境及链路、确认测试方法、自动测试,监测采集实施,关键生产环节的可用性保障-梳理整体环境及链路、确认测试方法、,23,24,运维操作实现的关键因素,技术经验、人员能
15、力、工具实现、持续优化,首先要将内部日常运维工作逐步标准化规范化,并形成简洁有效的运维管理过程,记录每个故障、分析成因、跟踪问题,技术经验、解决方案的日积月累。,外部技术经验及解决方案的引入,如网上资料、外包资源、项目资源等,。,技术经验,持续优化,在实施运维管理的同时,必须考虑配套制度规范及细则的设计,以及技术标准的建立,同时形成不断查缺补漏的工作机制,。,将运维操作领域进行细化分工,在系统设计、开发、投产、运行监测、优化改进等环节持续落实,。,24,工具实现,首先要明确各运维领域细化目标及需求,基于此分析对于工具的详细需求。,工具必须具备较强的二次开发能力,充分掌握核心代码,以结果为导向整
16、体设计,不断持续改进,运维管理分工的细化,由按系统分工模式,逐步调整为技术专业领域分工。,充分利用外包、驻场、项目资源,将上述人员能力,按照标准化模式,输出成为知识、解决方案,形成自身人员能力。,人员能力,24运维操作实现的关键因素技术经验、人员能力、工具实现、持,运维自动化工具思考,-,不是简单的流程化、复杂逻辑控制、实际处理难题.,任务的暂停、延迟、跳过、置换、提前:,任务的法定时间因子、前序条件因子、执行令牌因子(临时干预)【任务暂停、任务略过、任务提前、临时调换两个任务的先后顺序等功能支持的情况】,任务的时点报警、时长报警,:可给固定参考值阀值、也可根据平均时间动态计算阀值,任务流的暂停、终止,:向其它相关流程发送全局变量信息,多个任务流程直接的信息交互,:通过全局变量、消息队列等实现,对于已经启动的任务流中临时增加任务,:实例化后流程可动态修改,任务流的单步执行,:可控制流程进行单步执行,任务执行失败后的重做,:任务执行失败后,可选择执行错误任务进行纠错、判断、报警等,运维自动化工具思考-不是简单的流程化、复杂逻辑控制、实际处理,25,感谢交流,感谢交流,26,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。