应急预案通用标准处置-oracle v1.2

上传人:ra****d 文档编号:77598463 上传时间:2022-04-20 格式:DOC 页数:83 大小:804KB
收藏 版权申诉 举报 下载
应急预案通用标准处置-oracle v1.2_第1页
第1页 / 共83页
应急预案通用标准处置-oracle v1.2_第2页
第2页 / 共83页
应急预案通用标准处置-oracle v1.2_第3页
第3页 / 共83页
资源描述:

《应急预案通用标准处置-oracle v1.2》由会员分享,可在线阅读,更多相关《应急预案通用标准处置-oracle v1.2(83页珍藏版)》请在装配图网上搜索。

1、修改记录编号日期描述版本作者审核发布日期12021-3-30建立文档贺耀东22021-6-6补充场景,补充CMMP告警对应信息贺耀东32021-3-26补充11gASM局部1.1.24-26和2.1.28-2.1.31;crs_stat t命令补充11g对应命令贺耀东42021-7-31增加/34贺耀东 52021-08-29增加1.1.30、31、321.1贺耀东62021-9-22贺耀东72021-10-21贺耀东89101112131415如无中国建设银行的书面许可,任何人都无权复制或利用。Copy Right 2005 by China Construction Bank应急处置操作手

2、册1. 故障场景及处置流程1.1. 通用数据库故障场景1.1.1. 单节点数据库含RAC一边节点无响应,其上所有业务HANG事件级别:五级授权级别:部室负责人授权场景描述:单节点数据库含RAC一边节点无响应,所有业务HANG;CMMP报警:Oracle数据库可用性数据库连接状态当前值为;存档设备上的空闲空间当前值为业务影响:该数据库节点上业务完全中断。启动条件:无现场保护:按GD200中的方式要求,收集Oracle信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD007确认数据库已不响应2分钟T2GD012检查数据库日志,如果发现是日志归档无法进行,执行

3、T3;否那么执行T42分钟T3检查归档日志文件系统是否正常,问题解决后转至T73分钟T4GD002调用GD002重启数据库10分钟T5GD012检查数据库日志,确认数据库重启正常1分钟T6GD007确认数据库状态正常,通知应用重启1分钟T7应急救治结束修订日期:2021年6月4日 修订人: 贺耀东1.1.2. RAC数据库整体无响应,所有业务HANG事件级别:五级授权级别:部室负责人授权场景描述:RAC数据库整体无响应,所有业务HANGCMMP告警:Oracle数据库可用性数据库连接状态当前值为业务影响:所有业务启动条件:无现场保护:按GD200中的方式要求,收集Oracle信息。故 障 场

4、景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD007确认各节点数据库都已不响应2分钟T2GD012检查各节点数据库日志,如果发现是日志归档无法进行,执行T3;否那么执行T42分钟T3检查归档日志文件系统是否正常,问题解决后转至T73分钟T4GD013检查CRS各日志,确认最早出现问题的节点,找到原因。5分钟T5GD004/GD007关闭最早出现问题的节点数据库,重启该主机;主机无法连接后,调用GD007确认其他节点已正常;如果未正常,依次关闭其他节点数据库,重启主机。15分钟T6GD012检查数据库日志,确认数据库重启正常,通知应用重启1分钟T7GD007确认数据库状

5、态正常1分钟T8应急救治结束修订日期:2021年6月4日 修订人: 贺耀东1.1.3. 整体业务速度慢,主机持续有CPU一个或多个 高,且占用CPU高的pid固定事件级别:六级授权级别:部室日常授权场景描述:整体业务速度慢,主机持续有CPU一个或多个 高,且占用CPU高的pid固定CMMP告警:Unix效劳器CPU利用率当前值为业务影响:整体业务速度慢。启动条件:无现场保护:无故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD014根据pid找到当时正在执行的SQL1分钟T2GD015查看该SQL的执行方案1分钟T3GD016查看相关表的具体信息,分析问题原因

6、,采取相应操作.10分钟T4应急救治结束。5分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.4. 整体业务速度慢,主机CPU不高,或占用CPU高的pid持续变化事件级别:六级授权级别:部室日常授权场景描述:整体业务速度慢业务影响:整体业务速度慢启动条件:无现场保护:无故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD008生成AWR、ASH报告3分钟T2分析原因:如果是大批量小SQL反复执行,可能是由于业务量突增引起;如果是由于锁冲突Latch、队列等待Enq造成,需要消除瓶颈.5分钟T3应急救治结束。5分钟修订日期:2021年6月4日 修订人: 贺

7、耀东1.1.5. 数据库局部业务缓慢,CPU占用正常事件级别:六级授权级别:部室日常授权场景描述:数据库局部业务缓慢,CPU占用正常。大局部业务正常未受影响。业务影响:大局部业务正常未受影响,个别业务缓慢启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD017找到业务慢的session1分钟T2GD018针对该session生成ASH报告2分钟T3分析原因:有特殊等待事件可能是由于数据库bug;如果是由于锁冲突Latch、队列等待Enq造成,需要消除瓶颈10分钟T4应急救治结束。10分钟修订日期:2021年6月4日 修订人: 贺耀东1

8、.1.6. 数据库表空间可用空间缺乏事件级别:六级授权级别:部室日常授权场景描述:应用报错,数据库表空间可用空间缺乏;或CMMP发现数据库表空间剩余空间低。CMMP告警:Oracle数据库可用性表空间剩余百分比当前值为业务影响:应用报错时,需要向待扩展表中插入数据的业务会失败;CMMP告警时通常还有一定剩余空间,不会造成业务影响启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD019确认表空间当前使用情况1分钟T2从CMMP曲线查看该表空间使用率变化情况,是否属于突增;如果是,转入T3;否那么转入T62分钟T3分析该表空间上占用空间最

9、大对象的变化情况,结合业务量变化情况分析,该对象大小突然增长是否正常;如果正常,转入T6T4联系Oracle驻场工程师,分析是否为Oracle bugT5分析是否能重建该对象,如果是,重建对象;T6给表空间增加数据文件,进行表空间扩容10分钟T7应急救治结束。10分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.7. 已有连接可以正常工作,新连接无法建立事件级别:六级授权级别:部室日常授权场景描述:已有连接可以正常工作,新连接无法建立。业务影响:长连接业务正常未受影响,短连接业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间

10、树T1GD007登录数据库主机,确认数据库状态1分钟T2GD020查看是否进程数、连接数到达数据库限值,如果不是,转至T62分钟T3确认是否由于扩容等原因造成连接数、进程数增加,如果不是,转至T910分钟T4GD021确认是否并行进程太多造成资源缺乏,如果不是,联系工程组分析为何数据库连接数突然增加;如果是,定位SQLT5分析SQL并行原因:如果是有提示HINT,联系工程组;如果是对象设置了并行,和工程组沟通取消并行设置T6GD023lsnrctl status listener确认监听状态正常,如果无响应或状态异常,重启监听T7GD022查看listener.log,是否有最近的登录连接信息

11、是否有相应报错,T8从AP ping DB,看否有丢包、延时长的情况,如果有,联系网络分析原因T9选择适宜的时机,增大参数设置,重启数据库使之生效T2应急救治结束。10分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.8. 错误的删除了数据事件级别:六级授权级别:部室日常授权场景描述:错误的删除了数据delete。业务影响:和所删除记录有关启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD024调用GD 处置10分钟应急救治结束。2分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.9. 错误的drop了表事件级别:六级

12、授权级别:部室日常授权场景描述:错误的drop了表。业务影响:和所drop表有关启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1select object_name,original_name,type,droptime from user_recyclebin;flashback table t to before drop;同A8如果没有把握,可以根据时间大概判定,然后使用回收站中的名称闪回,并修改名称flashback table Bin$DSbd*=$0 to before drop rename to t1;10分钟应急救治结

13、束。2分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.10. 错误的执行了truncate事件级别:六级授权级别:部室日常授权场景描述:错误的执行了truncate。业务影响:和所truncate对象有关启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1如果数据库有灾备Data Guard,且使用了delay方式,尝试从备库恢复;10分钟联系工程组,能否通过应用找回数据10分钟获取备份集,请求平台组进行不完全恢复;然后把truncate前的数据逻辑导出,再逻辑导入生产库。2小时应急救治结束。2分钟修订日期:2021年6月4日 修

14、订人: 贺耀东1.1.11. 非RAC数据库硬件故障事件级别:六级授权级别:部室日常授权场景描述:非RAC数据库硬件故障导致业务缓慢。业务影响:业务缓慢启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1如果硬件故障严重直接会导致HA切换,不需要人工干预,此处仅讨论非严重硬件故障,但对生产有影响1分钟T2由操作系统管理员发起HA切换,在备机上启动数据库10分钟T3重启应用,应急救治结束。10分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.12. RAC数据库单节点硬件故障事件级别:六级授权级别:部室日常授权场景描述:RAC数据库硬

15、件故障导致业务缓慢业务影响:业务缓慢启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD025如果硬件故障严重直接会导致RAC的VIP漂移,不需要人工干预,此处仅讨论非严重硬件故障,但对生产有影响1分钟调用GD025 由DBA发起VIP漂移5分钟应急救治结束。1分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.13. 数据库存储故障事件级别:五级授权级别:部室负责人场景描述:数据库所有交易缓慢甚至停止 CMMP告警:Unix效劳器CPU等待IO时间当前值为业务影响:业务慢甚至无法进行启动条件:现场保护:故 障 场 景 应 急 处

16、 置序号调用处置编号 处 置 简 要 描 述时间树T1交易监控发现交易缓慢;或告警主机WIO高1分钟T2AWR报告显示,SQL比平时执行消耗更多的Elapsetime,平均读写等待时间明显增加10分钟 T3联系存储部门人员处理1分钟T4GD026如果有备库,调用GD026切换至备库,应用连接至备库10分钟 T5应急救治结束。1分钟T6GD026存储恢复后,切换回主库10分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.14. CRS的Voting Disk损坏事件级别:五级授权级别:部室负责人场景描述:CRS无法启动 业务影响:业务无法进行启动条件:现场保护:故 障 场 景 应 急 处

17、 置序号调用处置编号 处 置 简 要 描 述时间树T1CRS无法启动,提示Voting Disk损坏1分钟T2确认voting磁盘的位置:#crsctl query css votedisk; 采用dd命令将原来的备份恢复回来:#dd if=backupfile of=votedisk10分钟 重新启动CRS,应急救治结束。1分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.15. CRS的Ocr Disk损坏事件级别:五级授权级别:部室负责人场景描述:CRS无法启动 业务影响:业务无法进行启动条件:现场保护:故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树

18、T1CRS无法启动,提示ocr Disk损坏1分钟T2查看ocr的备份,ocr会自动备份:#ocrconfig showbackup; 对ocr进行恢复:#ocrconfig -import backupfile10分钟 重新启动CRS,应急救治结束。1分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.16. 单节点数据库含RAC一边节点宕机事件级别:五级授权级别:部室负责人授权场景描述:单节点数据库含RAC一边节点宕机;CMMP报警:Oracle数据库可用性数据库连接状态当前值为。业务影响:该数据库节点上业务完全中断。启动条件:无现场保护: 故 障 场 景 应 急 处 置序号调用处置

19、编号 处 置 简 要 描 述时间树T1GD001按验证步骤确认实例已完全停止2分钟T2GD002调用GD002重启数据库10分钟T3GD012检查数据库日志,确认数据库重启正常1分钟T4GD007确认数据库状态正常,通知应用重启1分钟T5应急救治结束修订日期:2021年9月28日 修订人: 贺耀东1.1.17. RAC数据库整体宕机事件级别:五级授权级别:部室负责人授权场景描述:RAC数据库整体宕机,CMMP告警:数据库实例的当前状态为5业务影响:所有业务启动条件:无现场保护: 故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD004按验证步骤确认各实例都已关

20、闭2分钟T2GD027确认CRS后台进程是否正常,如果不正常,关闭并重启CRS2分钟T3GD013检查CRS各日志,确认最早出现问题的节点,找到原因。5分钟T4GD005重启各节点数据库3分钟T5GD012检查数据库日志,确认数据库重启正常,通知应用重启1分钟T6GD007确认数据库状态正常1分钟T7应急救治结束修订日期:2021年6月4日 修订人: 贺耀东1.1.18. UNDO 表空间损坏事件级别:五级授权级别:部室负责人场景描述:回滚段表空间数据文件损坏正在进行的DML操作报错终止,或者跑批处理异常报错,应用日志及数据库告警日志发现告警信息,如以下错误:Errors in file /h

21、ome/db/oratg/admin/sbsdb/bdump/eciforg1_smon_7618.trc:ORA-01578: ORACLE 数据块损坏 (文件号 2, 块号 104420)ORA-01110: 提示UNDO表空间相关文件损坏业务影响:正在进行的DML操作报错终止,无法进行涉及到回滚表空间的任何业务如DML操作,业务无法进行启动条件:无现场保护:无故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1创立新的UNDO表空间3分钟T2切换UNDO表空间为新的UNDO表空间SQL alter system set undo_tablespace=undo

22、tbs2 scope=both;T3等待原UNDO表空间所有UNDO SEGMENT OFFLINE,如长时间未释放那么查找到相关会话及进程号,杀掉。10分钟 T4GD007确认数据库状态正常1分钟T5应急救治结束修订日期:2021年6月4日 修订人: 贺耀东1.1.19. 临时表空间损坏事件级别:五级授权级别:部室负责人场景描述:报ORA_01116、ORA_01110,报警内容为“ALERT日志出现ORA_01116、ORA_01110 错误“。 业务影响:需要使用临时表空间的业务操作无法进行,跑批处理异常报错启动条件:无现场保护:无故 障 场 景 应 急 处 置序号调用处置编号 处 置

23、简 要 描 述时间树T1确认临时表空间损坏,执行:select file_name,tablespace_namefrom dba_data_fileswhere file_id = &file_id;select file_name,tablespace_namefrom dba_temp_fileswhere file_id = &file_id;查询得到tablespace_name 为TEMP,可确认临时表空间损坏1分钟T2在其他存储上重建临时表空间:sqlcreate temporary tablespace temp02 tempfile /home/db/oratg/oradat

24、a/temp02.dbf size 5000m autoextend off;5分钟 T3改变缺省临时表空间为新建的临时表空间:sqlatler database default temporary tablespace temp02;1分钟T4切换数据库用户默认表空间到新建临时表空间。sqlalter user user_name default temporary tablespace temp02;1分钟T5GD007确认数据库状态正常1分钟T6应急救治结束修订日期:2021年6月4日 修订人: 贺耀东1.1.20. 局部控制文件损坏事件级别:五级授权级别:部室负责人场景描述:收到CMP

25、发送的无oracle后台进程告警短信,报警内容为“PMON进程不可用、“SMON进程不可用等。启动时报错:控制文件不一致,某个控制文件损坏业务影响:业务无法进行,数据库无法重启。启动条件:现场保护: 故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1查看alert日志确认局部控制文件损坏。1分钟T2用操作系统命令dd好的控制文件覆盖损坏的控制文件5分钟 T3GD001/GD005重新启动数据库,应急救治结束。1分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.21. 全部控制文件损坏事件级别:六级授权级别:部室日常授权场景描述:收到CMP发送的无oracl

26、e后台进程告警短信,报警内容为“PMON进程不可用、“SMON进程不可用等。启动时报错:控制文件不一致,某个控制文件损坏。业务影响:业务无法进行,数据库无法重启。启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1查看alert日志确认全部控制文件损坏。1分钟T2数据库的控制文件都有备份,可以从备份恢复控制文件,恢复步骤: $rman target sys/oraclesbsdb11 catalog rman/rmanrman rmanstartup nomount; rmanrestore controlfile from autobac

27、kup; rmanalter database mount; rmanalter database open resetlogs;5分钟T3GD001/GD005重新启动数据库,应急救治结束。5分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.22. 非SYSTEM和SYSAUX文件损坏事件级别:六级授权级别:部室日常授权场景描述:ALERT日志出现ORA_01033 错误。业务影响:涉及该表空间或数据文件的业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1查看alert日志确认局部非SYSTEM和SYSAUX文件损坏

28、。1分钟T2以数据库文件号为10的数据文件损坏为例: $rman target sys/oraclesbsdb11 catalog rman/rmanrman rmanalter database datafile 10 offline; rman run allocate channel c1 type disk; allocate channel c2 type disk; restore datafile 10; recover datafile 10; sql alter database datafile 10 online; release channel c1; release

29、channel c2; 30分钟T3应急救治结束。1分钟修订日期:2021年6月4日 修订人: 贺耀东1.1.23. SYSTEM和SYSAUX文件损坏事件级别:五级授权级别:部室日常授权场景描述:ALERT日志出现ORA_01033 错误。业务影响:数据库宕机,所有业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1查看alert日志确认局部非SYSTEM和SYSAUX文件损坏。1分钟T2进行数据库完全恢复; $rman target sys/oraclesbsdb11 catalog rman/rmanrman rmanst

30、artup mount; rman run allocate channel c1 type disk; allocate channel c2 type disk; restore database; recover database; sql ALTER DATABASE OPEN; release channel c1; release channel c2; 30分钟T3应急救治结束修订日期:2021年3月4日 修订人: 贺耀东1.1.24. 11g ASM上单个diskgroup不可用事件级别:五级授权级别:部室日常授权场景描述:ALERT日志出现DISKGROUP OFFLINE错

31、误。业务影响:数据库宕机,所有业务无法进行;启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD029确认资源状况时,反映单个diskgroup OFFLINE,其他资源正常1分钟T2GD028将该diskgroup设置为mount状态 2分钟T3GD005如果数据库效劳已宕机,重新启动数据库10分钟应急救治结束修订日期:2021年3月26日 修订人: 贺耀东1.1.25. 11g ASM不可用事件级别:五级授权级别:部室日常授权场景描述:ASM不可用。CMMP告警提示ASM实例宕机业务影响:数据库宕机,所有业务无法进行启动条件:无现场

32、保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD029确认数据库各资源效劳情况,确认ASM效劳OFFLINE,其他资源也会受到影响1分钟T2GD030查看ASM日志 ,如果存储不可用,联系存储解决5分钟T3GD027排除问题后,重启CRS效劳10分钟T4GD007确认数据库状态正常,通知应用T5应急救治结束修订日期:2021年3月26日 修订人: 贺耀东1.1.26. 11g ASM上单个DISK不可用事件级别:五级授权级别:部室日常授权场景描述:单个DISK不可用。CMMP告警提示有disk offline业务影响:如果有双存储保护,对生产无影响

33、;否那么数据库会宕机,所有业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD029确认数据库各资源效劳情况,确认ASM效劳是否正常,数据库效劳是否宕机1分钟T2GD030查看ASM日志 ,如果存储不可用,联系存储解决,执行T3;否那么执行T45分钟T3GD027排除存储问题后,重启CRS效劳,执行T510分钟T4GD035如果是在3.5小时之内,可以将offline的disk直接 online3分钟T5如果是在3.5小时之后,disk已经被drop掉,需要重新参加磁盘组参加时需要加force选项10分钟T6GD007确认数

34、据库状态正常,通知应用T7应急救治结束修订日期:2021年3月26日 修订人: 贺耀东1.1.27. RAC 监控日志中出现IPC SEND Timeout错误事件级别:五级授权级别:部室日常授权场景描述:RAC 监控日志中出现IPC SEND Timeout错误。CMMP告警提示有监控日志中出现IPC SEND Timeout错误业务影响:数据库有可能宕机,所有业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD029确认数据库各资源效劳情况, 1分钟T2GD007确认各节点数据库都已不响应2分钟T3GD004GD003G

35、D032GD033查看数据库alert日志 , 确认CRS是否自身已经发动了节点重启。如果没有自动重启,按如下顺序进行:停节点2数据库实例、停节点2 ASM实例、启动节点2 ASM实例、启动节点2数据库实例,停节点1数据库实例、停节点1 ASM实例, 启动节点1数据库实例、启动节点1 ASM实例,完成重启效劳10分钟T4GD007确认数据库状态正常,通知应用2分钟T5应急救治结束修订日期:2021年7月31日 修订人: 贺耀东1.1.28. CMM监控提示RAC UDP端口资源占用高事件级别:六级授权级别:部室日常授权场景描述:RAC UDP端口资源占用高。CMMP告警提示UDP端口资源占用高

36、,该场景为1.1.27场景的特例,由于指向更为明确,单独提出进行描述业务影响:数据库有可能宕机,所有业务无法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD029确认UDP端口占用是否正常:netstat an|grep udp| wc -l如果超过TCP业务连接netstat an|grep tcp| wc -l的4倍,且超过15000即超多不正常1分钟T2观察端口占用增加情况,选择业务低谷时间完成下面步骤的重启,还是当即开始重启步骤。超过25000就立即开始重启。5分钟T2GD004GD003GD032GD033按如下顺序进

37、行操作:停节点2数据库实例、停节点2 ASM实例、启动节点2 ASM实例、启动节点2数据库实例,停节点1数据库实例、停节点1 ASM实例, 启动节点1数据库实例、启动节点1 ASM实例,完成重启效劳15分钟T4GD007确认UDP端口占用数量已恢复正常,数据库状态正常,通知应用,确认应用连接正常T5应急救治结束修订日期:2021年7月31日 修订人: 贺耀东1.1.29. CMMP监控数据库实例不可用,实际发现数据库可用,alert日志有ORA-04031报错事件级别:六级授权级别:部室日常授权场景描述:ORA-04031报错。CMMP告警提示数据库实例不可用业务影响:该实例上所有业务都可能无

38、法进行启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD012查看alert日志,确认有ORA-04031报错1分钟T2GD034刷新shared pool,看是否能防止ORA-04031报错2分钟T3GD008生成AWR报告,确认ORA-04031不再出现,如果当前不再出现,选择业务低谷期重启实例,否那么选择当即重启实例2分钟T4确认该主机可用内存是否足够,足够时,先增加shared pool至少500M1分钟T5GD004重启实例5分钟T6GD007确认数据库状态正常,通知应用,确认应用连接正常1分钟T7应急救治结束修订日期:20

39、21年7月31日 修订人: 贺耀东1.1.30. CMMP监控发现oracle自动任务死锁事件级别:六级授权级别:部室日常授权场景描述:oracle自动维护的两 个自动任务GATHER_STATS_JOB 和 AUTO_SPACE_ADVISOR_JOB会死锁。CMMP告警提示oracle自动任务死锁业务影响:有用户表会被锁定,有可能影响业务启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1查看确认oracle自动维护的两 个自动任务GATHER_STATS_JOB 和 AUTO_SPACE_ADVISOR_JOB确实死锁:SQL col

40、 event for a30SQL col module for a20SQL col action for a30SQL SELECT session_id,event,blocking_session,MODULE,serial FROM v$SESSIONWhere module like DBMS_SCHEDULER%;如果返回的任务中,发现其各自被对方阻塞,就说明出现了死锁,结果如:2037 row cache lock 2073 DBMS_SCHEDULER GATHER_STATS_JOB2073 library cache lock 2037 DBMS_SCHEDULER AU

41、TO_SPACE_ADVISOR_JOB1分钟T2GD001根据以上信息,杀掉其中DBMS_SCHEDULER AUTO_SPACE_ADVISOR_JOB 所在session2分钟T3执行上面的SQL再次查看确认是否已开始继续1分钟T4GD007确认数据库状态正常,通知应用,确认应用连接正常1分钟T5应急救治结束修订日期:2021年8月31日 修订人: 贺耀东1.1.31. 11g数据库ologger进程占用高CPU事件级别:六级授权级别:部室日常授权场景描述:数据库ologger进程占用高CPU。业务影响:无启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置

42、简 要 描 述时间树T1该进程用于Oracle的Health Monitor功能,监控OS的运行状况,可以停止其执行:crsctl stop res ora.crf init防止其今后再次被启动 crsctl modify res ora.crf -attr AUTO_START=never1分钟T2确认该进程已不存在,不再占用CPU1分钟T3应急救治结束修订日期:2021年8月31日 修订人: 贺耀东1.1.32. 11g数据库节点重启后提示无法参加RAC事件级别:六级授权级别:部室日常授权场景描述:11g数据库节点重启后,CRS无法正常启动,日志提示无法参加RAC。业务影响:无启动条件:无

43、现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1GD013查看GRID的alert日志、crsd日志、cssd日志,确认错误信息,节点无法参加RAC8分钟T2业务低谷期重启对端节点的cluster。该进程杀掉后crsctl命令短时间不可用,然后迅速恢复正常。数据库在此期间运行正常。5分钟T3确认CRS启动正常,数据库正常T4GD007确认数据库状态正常,通知应用,确认应用连接正常1分钟T5应急救治结束修订日期:2021年10月21日 修订人: 贺耀东1.1.33. 11g数据库节点重启后无法启动,仅HASD进程存在事件级别:六级授权级别:部室日常授

44、权场景描述:11g数据库节点重启后,无其他进程被启动,相关进程只有hasd进程。业务影响:无启动条件:无现场保护:无。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1确认仅有hasd进程存在,其他进程都未启动1分钟T2确认/tmp/.oracle/nophasd文件存在,属于root:system,对其执行dd if=/tmp/.oracle/nophasd of=/dev/null count=2 等待1分钟后,ctrl+C退出2分钟T3Ps-ef | grep grid,确认其他进程已经启动,确认CRS启动正常,数据库正常1分钟T4GD007确认数据库状态正

45、常,通知应用,确认应用连接正常1分钟T5应急救治结束修订日期:2021年8月31日 修订人: 贺耀东2. 通用标准处置方法2.1. 通用处置数据库2.1.1. GD001:单机数据库非RAC标准关闭处置名称:ORACL单机数据库非RAC标准关闭处置时间:5分钟影响分析:1业务影响:重启期间业务不可用2技术影响:无3其它影响:无操作步骤: 1停止实例 sqlplus “/ as sysdba shutdown immediate验证步骤:ps ef | grep ora_确认无返回Oracle核心进程查看alert日志确认正常关闭Ipcs a确认共享段已释放修订日期:2021年6月4日 修订人:

46、 贺耀东2.1.2. GD002:单机数据库非RAC标准重启处置名称:单机数据库非RAC标准重启处置时间:10分钟影响分析:1业务影响:重启期间业务不可用2技术影响: 无3其它影响: 无操作步骤: 1 ps ef | grep ora_确认无返回Oracle核心进程Ipcs a确认共享段已释放2启动数据库 sqlplus “/ as sysdba startup验证步骤:1检查数据库的状态 sqlselect status from v$instance; ps -ef|grep ora_确认Oracle核心进程已启动查看alert日志确认正常启动修订日期:2021年6月4日 修订人: 贺耀东

47、2.1.3. GD003:单机数据库HANG信息收集处置名称:单机数据库HANG信息收集处置时间:10分钟影响分析:1业务影响:单台无影响2技术影响:无3其它影响:无操作步骤: 1收集HANG trace信息 $ sqlplus /nologconnect / as sysdbaoradebug setmypidoradebug unlimitoradebug hanganalyze 3!人工等待60s原来为执行一存储过程,但数据库HANG时无法执行该过程oradebug hanganalyze 3oradebug tracefile_name -得到trace文件名exit 2对未导出堆栈信

48、息的进程从操作系统收集堆栈信息 grep -in timed out; stack trc文件,返回例如:odspddb2_ora_1020648.trc:259447: Short stack dump: . timed out; stack dump taking longer than 30000 msodspddb2_ora_1020648.trc:263447: Short stack dump: . timed out; stack dump taking longer than 30000 mshead -270000 翻开该临时文件,搜索timed out,找到所在的进程号 O

49、SD pid info: Unix process pid: 840048, image: oracleodspddb2BJ1ODSDB02Short stack dump: . timed out; stack dump taking longer than 30000 msps -ef | grep 确认进程是oracle后台关键进程还是普通连接进程AIX使用:truss -等待30秒后,可使用ctrl+c终止procstack HP使用:tusc -aef -T %H:%M:%S -p等待30秒后,可使用ctrl+c终止pstack 3收集systemstat trace信息新开登录窗口

50、,新生成trc文件,防止累积生成的trc文件太大,也有利于并行收集$ sqlplus /nologconnect / as sysdbaoradebug setmypidoradebug unlimitoradebug dump systemstate 266!人工等待60s原来为执行一存储过程,但数据库HANG时无法执行该过程oradebug dump systemstate 266oradebug tracefile_name-得到trace文件名exit验证步骤:无修订日期:2021年6月4日 修订人: 贺耀东2.1.4. GD004:RAC数据库标准关闭处置名称:ORACLE数据库标准

51、关闭处置时间:5分钟影响分析:1业务影响:单台无影响2技术影响:无3其它影响:无操作步骤: 1停止实例 srvctl stop instance -d -i -o immediate2停止crs进程 root用户下执行 crsctl stop crs验证步骤: crs_stat t确认已关闭(11g使用crsctl status res t)ps ef | grep ora_确认无返回Oracle核心进程查看alert日志确认正常关闭Ipcs a确认共享段已释放修订日期:2021年6月4日 修订人: 贺耀东2.1.5. GD005:RAC数据库标准重启处置名称:RAC数据库标准重启处置时间:1

52、0分钟影响分析:1业务影响: 单台无影响2技术影响: 无3其它影响: 无操作步骤: 1如果CRS未启动,启动crs进程和数据库 crsctl start crs2如果CRS已启动,单独启动数据库srvctl start instance -d -i 验证步骤:1检查数据库的状态 sqlselect status from v$instance; ps -ef|grep ora_确认Oracle核心进程已启动查看alert日志确认正常启动修订日期:2021年6月4日 修订人: 贺耀东2.1.6. GD006:RAC数据库HANG信息收集处置名称:RAC数据库HANG信息收集处置时间:10分钟影响

53、分析:1业务影响:单台无影响2技术影响:无3其它影响:无操作步骤: 1收集HANG trace信息 $ sqlplus /nologconnect / as sysdbaoradebug setmypidoradebug unlimitoradebug -g def hanganalyze 3!人工等待60s原来为执行一存储过程,但数据库HANG时无法执行该过程oradebug -g def hanganalyze 3oradebug tracefile_name -得到trace文件名exit 2对未导出堆栈信息的进程从操作系统收集堆栈信息 grep -in timed out; stack trc文件,返回例如:odspddb2_ora_1020648.trc:259447: Short stack dump: . timed out; stack dump taking longer than 30000 msodspddb2_ora_1020648.trc:263447:

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!