服务器应急响应体系课件

上传人:阳*** 文档编号:113372574 上传时间:2022-06-25 格式:PPT 页数:52 大小:1.17MB
收藏 版权申诉 举报 下载
服务器应急响应体系课件_第1页
第1页 / 共52页
服务器应急响应体系课件_第2页
第2页 / 共52页
服务器应急响应体系课件_第3页
第3页 / 共52页
资源描述:

《服务器应急响应体系课件》由会员分享,可在线阅读,更多相关《服务器应急响应体系课件(52页珍藏版)》请在装配图网上搜索。

1、盛大网络服务器应急响应体系2011年11月内容提纲应急响应体系介绍应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟应急响应体系介绍基本目标 积极预防,常备不懈; 及时发现,快速响应; 定期分析,及时总结。适用范围适用于突发的,不可预见的,对用户(公司内、外)造成影响的适用于突发的,不可预见的,对用户(公司内、外)造成影响的事件;事件; 适用于涉及安全、网络、应用安全、网络、应用在内的多方面事件,包括:入侵、网络中断、服务器硬件故障、服务对内对外不可达或异常等情况。 应急响应体系介绍 下列那些属于应急事件? 公司居里路办公楼突然大面积断电,

2、无法正常办公。老楼一切正常。 小A的个人电脑无法使用公司网络,影响办公。 张江机房非我司服务器受到攻击. 农行系统故障,导致玩家无法用农行卡进行充值。但我司电商系统正常。 收取邮件发生延迟:只是不能及时收取,没有发生邮件丢失状况 应急响应体系介绍 体系结构图应急体系中期执行应急体系前期预案应急体系后期分析准备/预防收集/点评指导/改进周报月报分类统计培训演习预案报告处理协调反馈指导应急响应体系介绍 整体 整个体系由前期预案、中期执行和后期分析三个阶段组成,这三个阶段循环往复,以达到系统不断完善、改进的目的。 前期预案为紧急事件的发生做预防准备工作,后期分析对执行中的各项问题进行统计分析,分析结

3、果指导改进前期预防机制。应急响应体系介绍 前期-培训 主要对事件判定和处理流程等内容的推广和普及。应急响应体系介绍 前期-预案 服务器管理员平时应针对应用、设备或某种类型的事件分别制定出完整的应急预案。例如:可针对DNS、邮件、网站、游戏、网络故障、入侵、攻击等。 应急预案的内容应包括:常见应急事件列举,分析判断的原则、处理措施,责任的划分,事故的报告要求,对应的应急联络人等。应急响应体系介绍 前期-演习 针对已发生过的重大事件进行环境模拟,以摸索验证突发事件的标准处理过程。演习必须严格按照演习计划,且在不影响正常工作秩序的情况下进行。 为保证能快速、准确的处理公司可能遇到的各种突发事件,必须

4、定期进行演习,一般应为1至3个月进行一次。 通过应急预案的演习,事件主处理人应了解和熟练掌握应急预案中的每一个步骤和方法。 每次演习的结果和演习相对于预案发现的问题,必须写入演习报告,及时进行总结,并对预案进行相应调整。应急响应体系介绍中期执行 事件处理流程非常重要,直接决定事件处理的质量和效率。事件协调员统一分机号码:事件协调员统一分机号码:6308、6688,提供,提供7*24h值班值班响应;响应;事件平台是统一记录应急事件事件平台是统一记录应急事件处理过程的实时沟通、信息共处理过程的实时沟通、信息共享平台享平台应急响应体系介绍中期执行 发现:有两种情况:网络监控部通过监控手段发现;其他部

5、门或人员发现的紧急事件。 协调:任何人发现或接到外部紧急事件报告必须第一时间通知技术保障中心网络监控部的事件协调员。 处理:协调员证实事件后会将事件录入事件平台,并及时通知事件主负责人,在事件处理过程中协调员会与事件主处理人随时保持联络,跟进事件的处理进展直至影响消除,事件关闭。内容提纲 应急响应体系介绍应急响应中的角色以及职责应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟应急响应中的角色以及职责应急响应中的不同角色事件报告人:事件报告人:监控人员/其他人员(例如客服、项目组、高层领导)。事件协调员:事件协调员:接受紧急事件的报告,协调各方力量进行应急事

6、件处理。事件主处理人:事件主处理人:核心处理人员,负责调度事件处理人和各方资源去处理紧急事件。协助处理人:协助处理人:是紧急事件的协同处理人员,接受事件主负责人分配的工作。应急响应中的角色以及职责事件报告人的职责任何人任何人发现或接到外部紧急事件后,不论事件是否与自己、自己所在的项目有关,均有责任在第一时间通知技术保障中心网络监第一时间通知技术保障中心网络监控部的事件协调员。控部的事件协调员。事件协调员的职责 判断事件类型和等级,通知事件主处理人; 记录事件发生梗概,跟进事件处理进展,并记录到事件平台,直至影响消除,事件关闭。应急响应中的角色以及职责事件主处理人的职责 事件主处理人必须具有上网

7、条件上网条件,如果你接到通知作为事件主处理人,而又不具备上网条件时,你应该重新指派某人作为事重新指派某人作为事件主处理人,并向协调员说明情况,让他通知你所指派的人作件主处理人,并向协调员说明情况,让他通知你所指派的人作为事件主处理人为事件主处理人。 接到协调员通知作为事件主处理人且具备上网条件的,应该对协调员描述的问题进行初步检查、分析和判断。事件主处理人进行初步检查、分析和判断。事件主处理人有责任负责联系、协调其他协助处理人。对不属于自己业务范有责任负责联系、协调其他协助处理人。对不属于自己业务范围的,向事件协调人反馈,通知其他事件处理人处理围的,向事件协调人反馈,通知其他事件处理人处理。应

8、急响应中的角色以及职责 事件处理人一旦确定事件属于本职范围内, 应该立即登陆事件平立即登陆事件平台,打开当前事件台,打开当前事件(即进入交流界面),获取事件概况并进行相获取事件概况并进行相应处理应处理;在处理过程中,可以通知其他相关人员加入交流界面协助处理,并将处理进展情况及时与在线人员沟通处理进展情况及时与在线人员沟通,实现信息共享。 事件主负责人应主动反馈事件处理进展情况;遇到协调员提问应遇到协调员提问应实事求是给予明确答复,绝对不允许置之不理,防碍相关人员了实事求是给予明确答复,绝对不允许置之不理,防碍相关人员了解情况;更不能故意隐藏事故真相,逃避事故责任解情况;更不能故意隐藏事故真相,

9、逃避事故责任。应急响应中的角色以及职责 事件主处理人通过事件平台沟通界面统筹指挥处理过程,当事件处理结束时,主处理人应及当事件处理结束时,主处理人应及时通知事件协调员关闭事件时通知事件协调员关闭事件。 对于重大事件、不合理事件事件主处理人必须对于重大事件、不合理事件事件主处理人必须在事后提供在事后提供事件报告事件报告。 应急响应中的角色以及职责 协助处理人的职责 配合事件主处理人对紧急事件进行应急响应,接受事件主处理人的调度接受事件主处理人的调度。 在配合事件主处理人进行处理的过程中,随时随时将处理进展向事件主处理人报告将处理进展向事件主处理人报告。 应急响应中的角色以及职责事件报告必须在一个

10、工作日内完成,必须包含以下内容 事件发生时间/处理完成时间 事件类型/IDC机房 影响简述(范围/人数/时长) 原因/责任分析 处理过程(按时间记录处理进展) 处理优化建议应急响应中的角色以及职责 事件平台界面应急响应中的角色以及职责事件平台界面应急响应中的角色以及职责应急响应中的角色以及职责事件报告撰写界面内容提纲 应急响应体系介绍 应急响应中的角色以及职责应急事件等级划分标准应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟应急事件等级划分标准应急事件根据故障类型划分为三大类应急事件根据故障类型划分为三大类 网络事件: 网络中断、网络延迟增大、路由环路、交换机故障等; 安全事件:

11、 被入侵、感染病毒、受攻击、中木马、中蠕虫等; 应用事件: 硬件故障:cpu/硬盘/内存/raid卡/网卡/主板/电源; 服务/程序:失去响应、自动重启; 服务器宕机等;应急事件等级划分标准事件等级反映了事件对业务的影响程度事件等级反映了事件对业务的影响程度,共分为三级。一级事件指可能会对公司造成重大损失对公司造成重大损失的紧急事件。二级事件指可能对公司某部分业务造成较大损失对公司某部分业务造成较大损失的紧急事件。三级事件指可能对公司个别业务造成一定影响对公司个别业务造成一定影响的紧急事件。 应急事件等级划分标准 应急事件等级划分表应急事件等级划分表应急事件等级划分标准核心业务核心业务 计费、

12、冲值、电子商务、密宝、DNS、集中备份、盛大通行证 主要业务主要业务 各游戏服务器、数据库、令牌服务器、邮件服务器、公司官方网站、以及传奇、传世、梦幻、冒险岛、BNB、DDO、Archlord、游戏官方网站、圈圈、P2P、EZ、淘金乐园、积分游戏、客服事件递交系统、外部应用监控平台、事件平台系统、人数监控系统、OCTOPOD、NETVIEW、KM其他业务其他业务 核心业务和主要业务之外的其他业务 应急事件等级划分标准核心机房核心机房 上海张江机房、上海外高桥机房 主要机房主要机房 南京电信龙江机房、上海网通漕河泾机房、北京电信通机房、哈尔滨网通第二枢纽机房、西安电信西部数据中心机房、杭州电信岗

13、一号机房、成都天府热线国际大厦机房、成都天府热线二枢机房、武汉电信南垸机房、 广州七星岗机房、青岛网通二枢纽机房其他机房其他机房 其他合作IDC机房 应急事件等级划分标准辅助的细分判断标准(一)应急事件等级划分标准辅助的细分判断标准(二)应急事件等级划分标准试判断以下事件的等级: 某日凌晨客服反馈:部分玩家 无法使用农行卡进行充值,我司技术人员结果检查发现:我方电商系统运行良好,为农行系统故障。联系农行人员,30分钟后故障解决。内容提纲 应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准应急响应中的辅助故障判断工具应急响应中的辅助故障判断工具 情景模拟应急响应中的辅助故障判断工具

14、人数监控二期(监控)应急响应中的辅助故障判断工具人数监控二期(监控)人数查询界面应急响应中的辅助故障判断工具CobWeb应急响应中的辅助故障判断工具CobWeb的节点分时走势图应急响应中的辅助故障判断工具CobWeb的节点到节点分时走势图应急响应中的辅助故障判断工具人数监控二期(分析)应急响应中的辅助故障判断工具人数监控二期(分析)选择曲线对比界面应急响应中的辅助故障判断工具 人数监控二期(分析)选择曲线对比界面应急响应中的辅助故障判断工具 人数监控二期(分析)明细查询界面内容提纲 应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具情景模拟情景模拟情

15、景模拟2006年1月30日23:55泡泡堂监控值班A下楼吃晚餐,监控任务暂交传奇监控值班B代看,这时B发现泡泡堂2区人数突降31000多人,这时B该怎么办?首先判断属于应急事件应立即打6308电话分机报告协调员情景模拟协调员接到应急事件报告,确认情况后通知泡泡堂技术经理C作为事件主负责人,并在事件平台上新建事件情景模拟泡泡堂技术经理C接到协调员电话通知时,正在杭州出差无法处理,但能初步判断事件可能和2区的游戏登陆服务器有关,这时C该做些什么?向协调员说明情况,并指定新的事件主负责人情景模拟协调员通知经理指定人员-技术工程师D作为新的主负责人,D在家,可以上网,这时D该做些什么?立即登陆事件平台

16、,打开当前事件,进行协调处理情景模拟技术工程师D在线指导值班人员重启泡泡堂2区登陆服务器,经观察后无效 ;后查看游戏服务器日志,发现与DB连接异常。由于值班人员无权限连DB,D在家有IPsec限制、登陆DB有防火墙限制,所以在家无法继续进行处理,而深夜也没有项目值班。在这个阶段中D应该做些什么?接着该怎么办?在事件平台上及时反馈处理过程和进展通知合适人员协助处理情景模拟技术工程师D通知住在公司附近的项目组成员E立即赶往公司进行处理。E赶往公司清理DB空间,重启全区,人数回升至正常。E在工作中应该做些什么?同样登陆事件平台,随时汇报事件处理进展。情景模拟事件至此是否已经结束?结束的标准是什么?确认事件结束后,主负责人还需要做哪件事?结束对公司业务影响或对用户影响消除,事件就结束了通知协调员关闭当前事件Q&A

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!