中科曙光服务器培训教程汇总:操作系统异常情况处理

上传人:努力****83 文档编号:239825053 上传时间:2024-02-21 格式:PPTX 页数:60 大小:11.92MB
收藏 版权申诉 举报 下载
中科曙光服务器培训教程汇总:操作系统异常情况处理_第1页
第1页 / 共60页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第2页
第2页 / 共60页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第3页
第3页 / 共60页
资源描述:

《中科曙光服务器培训教程汇总:操作系统异常情况处理》由会员分享,可在线阅读,更多相关《中科曙光服务器培训教程汇总:操作系统异常情况处理(60页珍藏版)》请在装配图网上搜索。

1、操作系统异常情况处理孙龙祥技术支持中心2故障检查与处理手段软件故障Firmware版本Firmware更新OS故障、配置错误检查修改配置,重装系统硬件故障LED,蜂鸣器,BMC日志针对性的更换故障部件系统工具检查硬件专用工具检查目录01020304判断故障类型硬件相关工具OS启动异常处理磁盘克隆方法与相关操作05网络相关41.1判断软硬件故障辅助工具-LiveCD有大量的报修软件故障还是硬件故障扯不清的问题,我可以从U盘/光盘启动一个live系统,来排除故障节点的操作系统本身问题。https:/ 故障:内核参数加enforcing=0或selinux=0(rhel5)Kernelpanic1.

2、2显示内容很重要案例121.2显示内容很重要Kernelpanic看到十六进制字样一般是内核输出信息13从“FirmwareBug”可以看出是在os下报出的错误,抓拍发邮件反馈时,请压缩图片,以能看清文字为准,文件越小越好虽然指向的是cpu无响应,也要从我们的liveCD启动盘启动看下是否有相同的故障报错,因为不排除是用户更改了配置后造成的故障1.2显示内容很重要案例141.2显示内容很重要Giverootpasswordformaintenance(ortypeControl-Dtocontinue):非正常关机,突然断电,设备数据读写异常等此故障多为文件系统只读,或root分区损坏,系统只

3、启动了内核案例151.2显示内容很重要还是硬盘错误,这次是系统下报错,这样就可以查系统日志了。同一个部件,它可以变着花样,各种排列组合的折磨你案例161.2显示内容很重要操作系统启动和关闭过程中有大量信息,可能涉及系统服务bug、网络等171.2显示内容很重要判断为硬件相关故障,考虑排查Reise卡或PCIe插槽案例181.2显示内容很重要判断为硬件相关故障,关闭CPU节能案例目录01020304判断故障类型硬件相关工具OS启动异常处理磁盘克隆方法与相关操作05网络相关202.1系统工具来帮忙lspci-vvv、lsmod、modinfo驱动相关网卡、网络配置相关raid卡、SAS卡工具判断硬

4、盘或卡故障内存cpudmidecodeipmitool212.1系统工具来帮忙lspci|grep(-i)xxxEthMellanoxNVIDIAHFILSI如果系统下不识别某个硬件设备了,用什么方法来查看呢?222.1系统工具来帮忙lspci-vvvlspci-vvv|grep(-i)A10 xxx外插卡出现异常,怎么查看驱动信息,链路信息?232.1系统工具来帮忙lsmod用于查看已加载的驱动和驱动间依赖关系modprobe用于加载驱动modprobe-r用于卸载驱动modinfo用于查看驱动模块的版本不识别某个硬件,驱动加载了吗,怎么看?242.1系统工具来帮忙mpt3sas是啥?252

5、.1系统工具来帮忙mpt3sasLSIMPTFusionSAS3.0DeviceDrivermegaraid_sasAvagoMegaRAIDSASDriveraacraidAdaptecAdvancedRaidProductsqla2xxxQLogicFibreChannelHBADriverlpfcEmulexLightPulseFibreChannelSCSIdriverigb/e1000e/e1000Intel(R)GigabitEthernetNetworkDriverixgbe/i40eIntel(R)X0GigabitPCIExpressNetworkDrivertg3Broad

6、comTigon3ethernetdrivermlx4/5_ibMellanoxConnectXHCAInfiniBanddriverhfi1IntelOmni-PathArchitecturedrivernouveaunVidiaRiva/TNT/GeForce/Quadro/Tesla(inbox)nvidiabe2iscsiEmulexOneConnectOpen-iSCSIDriverqla4xxxQLogiciSCSIHBADriverbnx2fcQLogicFCoEDriverqedfQLogicQEDF25/40/50/100GbFCoEDriveri40iwIntel(R)Et

7、hernetConnectionX722iWARPRDMADriver262.1系统工具来帮忙网卡出现大量错误包,一般是硬件故障272.1系统工具来帮忙ethtool-ienp4s0也可以查看驱动安装过mellanox驱动,可以查看IB驱动版本怎么查看网卡当前连接速率?282.1系统工具来帮忙free,df内存、硬盘爆仓了,怎么看?有什么影响?292.1系统工具来帮忙由分区未对齐造成的磁盘性能低(parted)mklabel msdos(parted)mkpart primary 0 100%Warning:The resulting partition is not properly ali

8、gned for best performance.Ignore/Cancel?磁盘对齐操作:(parted)align-checkoptimal 1#1ispartationnumber1 aligned302.1系统工具来帮忙lscpu高算集群某个节点计算速度慢,看下更换主板后关闭超线程了吗?312.1系统工具来帮忙cat/proc/cpuinfo网络测试时,总测不出理想结果,看主频是否在基频。322.1系统工具来帮忙dmidecode-tmemory在mcelog里看到ECC报错,内存条有很多,怎么把BANK0和硬件对应起来?332.1系统工具来帮忙ipmitoolipmitoolsdr

9、elist#查看传感器信息ipmitoolselelist#查看日志ipmitool-Uadmin-Padmin-H10.0.40.97-Ilanpluschassispoh#ipmi启动了多长时间342.1系统工具来帮忙smartctla/dev/sda怎么查看SSD总写入量,是否超过设计寿命?352.1系统工具来帮忙SMART(Self-MonitoringAnalysisAndReportingTechnology)01(001)底层数据读取错误率RawReadErrorRateC8(200)写入错误率WriteErrorRate以下是SSDE1(225)主机写入数据量HostWrite

10、sE8(232)寿命余量EnduranceRemainingE8(232)预留空间剩余量AvailableReservedSpace(Intel芯片)E9(233)介质磨耗指数MediaWareoutIndicator(Intel芯片)http:/ showbbm查看raid逻辑坏块storcli/cx showbadblocksstorcli/cx/vxsetwrcache=awbpdcache=onstorcli/cxshoweventsstorcli/cxshowtermlogstorcli/cxshowalilogBroadcom(Avago、LSI)storcli382.2硬件专用工

11、具ibstat怎么查看链接状态等信息?392.2硬件专用工具ib_write_bw/ib_read_bw#带宽ib_write_lat/ib_read_lat#延时ibdiagnets#诊断整个IB网怎么测试点到点的带宽和延时?402.2硬件专用工具opainfo连接带宽连接质量412.2硬件专用工具opareport-v可以看到整个网路里每个端口的带宽。422.2硬件专用工具opahfirev(SimilartoOFEDibv_devinfo)lspcivvLinkSta:Speed8GT/s,WidthX16#像EDR、OPA、100G以太网卡和GPU、XEON PHI都需要x16PCIe

12、GEN3:8GT/sGEN2:5GT/sopa网络与理论带宽相差较大,可以看下PCIe的工作模式432.2硬件专用工具nvidia-smiNVIDIAGPU状态异常,看看温度如何,使用率多高,是否有ECC报错442.2硬件专用工具XEONPHI(KNC)modprobemicsystemctlstartmpssmicctrlsmiccheck#检查mic状态micinfo#查看mic温度,mpss版本等XEONPHI正常工作需要加载驱动,打开mpss服务XEONPHI的正确打开方式目录01020304判断故障类型硬件相关工具OS启动异常处理磁盘克隆方法与相关操作05网络相关463.1启动停在g

13、rubgrubcat(hd0,2)/etc/fstab#sugon一般安装的系统sda1:/boot,sda2:swap,sda3:/grubroot(hd0,2)grubsetup(hd0)grubkernel(hd0,0)/vmlinuz-tabroroot=/dev/sda3grubinitrd(hd0,0)/initrd-tabgrubboot473.2启动停在maintenanceGiverootpasswordformaintenance(ortypeControl-Dtocontinue):多为文件系统只读,或硬盘有坏块mount次数BIOS时间e2fsck/dev/sda2e2

14、fsck/dev/mapper/vg-root483.2启动停在maintenance文件系统只读还有可能是/etc/fstab里加入了外部存储,不管是fcsan、ipsan、nas都有可能失联,或启动顺序不对导致超时。建议把外部存储开机挂载命令写入/etc/rc.local。非要写在fstab的话,一定加上_netdev参数。例如:/dev/mapper/san_data/dataxfsdefaults,_netdev00493.3rhel6进入单用户模式在grub界面选中启动项按e键,进入编辑模式在“kernel”行末输入“空格1或signle“,回车返回grub界面,按b键,启动系统50

15、3.3rhel7进入单用户模式在grub2界面选中启动项,按e键,进入编辑模式在linux16/linux/linuxefi所在参数行尾添加以下内容:init=/bin/sh然后按ctrl+x键,启动系统到shell挂载文件系统为可写模式:mount-oremount,rw/运行passwd,并按提示修改root密码。如果之前系统启用了selinux,必须运行以下命令,否则将无法正常启动系统:touch/.autorelabel运行命令exec/sbin/init来正常启动,或者用命令exec/sbin/reboot重启。方法1:init513.3rhel7进入单用户模式在grub2界面选中启

16、动项,按e键,进入编辑模式在linux16/linux/linuxefi所在参数行尾添加以下内容:rd.break,按ctrl+x进入;进去后输入命令mount,发现根为/sysroot/,并且不能写,只有ro=readonly权限;挂载文件系统为可写模式:mount-oremount,rw/sysroot/chroot/sysroot/改变根运行passwd,并按提示修改root密码如果之前系统启用了selinux,必须运行以下命令,否则将无法正常启动系统:touch/.autorelabelctrl+d退出然后reboot方法2:rd.break目录01020304判断故障类型硬件相关工具

17、OS启动异常处理磁盘克隆方法与相关操作05网络相关534.1更换磁盘后克隆系统在HPC集群某个节点更换硬盘后,克隆硬盘的操作找一个相同配置的正常节点A(系统下识别本地硬盘sda),重启,临时关闭网络,防止产生大量作业IO插入故障节点B新更换的硬盘(在A节点识别为sdb)执行ddif=/dev/sdaof=/dev/sdbbs=1M;sync等待执行完成,一般要半小时以上克隆后,挂载sdb的根分区到/mnt目录mount/dev/sdb3/mnt。rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/net

18、work-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/ruels.d/70-persistent-net.rules,sync然后卸载/mnt目录,重启rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,sync然后卸载/mnt目录,重启dd544.1更换磁盘后克隆系统在HPC集群某个节点更换硬盘后,克隆硬盘的操作找一个相同配置的正常节点A,重启,从再生龙启动系统下识别本地硬盘sda,插入故障节点B新更换的硬盘(在A节点识别为

19、sdb)经过一系列确认后开始克隆克隆后,挂载sdb的根分区到/mnt目录mount/dev/sdb3/mnt。rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/ruels.d/70-persistent-net.rules,sync然后卸载/mnt目录,重启rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfig/network-script

20、s/ifcfg-eth0,ib0,sync然后卸载/mnt目录,重启再生龙55目录01020304判断故障类型硬件相关工具OS启动异常处理磁盘克隆方法与相关操作05网络相关575.1网络及安全服务NetworkManagerfirewalldselinuxiptablesip6tables临时关闭服务:systemctlstopNetworkManagersystemctlstopfirewalldsetenforce0systemctlstopiptablessystemctlstopip6tables下次启动生效:systemctldisableNetworkManagersystemct

21、ldisablefirewalldsed-i7s/enforcing/disabled/etc/selinux/configsystemctldisableiptablessystemctldisableip6tables网络不通,ssh无法登陆,先看看这几个服务585.1网络及安全服务serviceNetworkManagerstop(rhel6)chkconfigNetworkManageroff(rhel6)rhel7推荐使用nmtui/nmcli创建team做team依赖NetworkManager595.1网络及安全服务opensmopenibdopenibd-opaopensmopafm系统先启动openibd或opa服务驱动硬件工作,然后在集群内至少一个节点打开子网服务opensm或opafm,如多个节点开启子网服务,需要驱动包版本尽量一致。HCA卡指示灯不亮,IB网不通?

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!