主机及存储设备性能监控方案

上传人:w****3 文档编号:59434102 上传时间:2022-03-03 格式:DOC 页数:18 大小:344.50KB
收藏 版权申诉 举报 下载
主机及存储设备性能监控方案_第1页
第1页 / 共18页
主机及存储设备性能监控方案_第2页
第2页 / 共18页
主机及存储设备性能监控方案_第3页
第3页 / 共18页
资源描述:

《主机及存储设备性能监控方案》由会员分享,可在线阅读,更多相关《主机及存储设备性能监控方案(18页珍藏版)》请在装配图网上搜索。

1、主机及存储设备性能监控方案一背景和目标目前,为各省配备的小型机和存储设备都已进入稳定运行阶段,总局信息中心决定在各省开展小型机和存储设备的性能监控工作,对小型机和存储设备的主要性能数据进行定期采集,了解和掌握当前设备的性能和压力状况,为基础设施的运行维护、资源优化和建设规划工作积累经验和提供依据。二监控范围主机及存储设备性能监控的范围主要包括总局统一为各省配备的HP小型机(superdome、IBM小型机(P595,P570)和EMC磁盘阵列设备。三监控时间主机及存储设备性能监控工作将对连续3个月内的关键时间点对HP小型机、旧M小型机和EMC磁盘阵列设备的关键性能指标进行数据采集,建议在系统忙

2、时和闲时分别进行检测。一般建议每月至少监控4天,其中征期至少两天,非征期至少两天;每天监控至少4次,其中忙时至少两次,闲时至少两次。具体监控时间和详细的监控次数,各省可根据本省的业务特点进行确定和调整。四监控方式主机及存储设备性能监控通过运行小型机及存储设备自带的命令对关键性能指标进行查看,并进行数据采集。技术方案第五部分详细介绍了HP小型机、旧M小型机和EMC磁盘阵列性能监控命令的操作指南。 数据采集工作可直接按照操作指南运行命令进行,也可以通过运行命令脚本(详见附件三)进行。五操作指南5.1 IBM 小型机性能监控方案5.1.1系统性能检查方式及说明:(一)IBM小型机性能监控均通过旧MA

3、IX系统自带命令,非第三方软件。IBMAIX系统安装后,无需额外安装任何软件包即可使用。(二)IBM小型机性能监控的命令,均不额外增加系统负荷。即是说当系统繁忙度较高时,仍可执行下列命令,且不对系统造成影响。(三)采样数据的保存。通过执行旧M小型机性能监控命令,输出结果的保存办法,一般常用以下几种:1、使用专业的telnet工具登录到主机上。专业telnet工具均会含有“捕获输出文字”的功能,只要打开捕获输出文字功能,所有的输出均会记录到文件中。(推荐,不影响系统)2、使用AIX系统的输出重定向功能。命令格式:#命令文件名上面的方式是将命令的输出结果直接输出到一个文件中。例如:#vmstat2

4、10/tmp/vm_output这个命令会将命令vmstat210的输出结果放在/tmp目录下的vm_output文件中。5.1.2IBM 小型机性能监控方案IBM小型机性能监控方案主要对旧M小型机的CPU状况、磁盘I/O吞吐状况、内存及虚拟内存使用率和硬盘空间状况等关键指标进行性能监控,具体操作如下:CPU 状况监控方式:通过vmstat命令检查系统CPU使用情况操作示例:#vmstat210参数说明:2表示每隔2秒取样一次,10表示共取样10次。这2个参数的具体值可以根据需要自由定义。输出示例:#vmstat210Systemconfiguration:lcpu=2mem=3920MBkt

5、hrmemorypagefaultscpurbavmfrerepipofrsrcyinsycsussyidwa00229367332745000000319869009900022936733274500000033366009900022936733274500000023368009900022936733274500000080306100019710022936733274500000012068009900022936733274500000023664009900022936733274500000023366009900022936733274500000022166009900

6、022936733274500000012376400990002293673327450000002196600990002293673327450000006377600990输出说明:5page部分pi列表示pagein;po歹!J表示pageoutpi和po的数值一般为0。如果长期不为0,说明系统需要频繁的进行从硬盘上的虚拟内存部分进行页的交换,物理内存不足。6cpu部分:us列表示用户进程占用的CPU的百分比;sy列表示系统进程占用的CPU的百分比;id列表示空闲的CPU的百分比;wa表示CPU处于等待IO状态的百分比.;一般如果id项的值长期低于20%说明系统CPU不足,须考虑增加

7、CPU或优化程序;如果wa的值长期高于us和sy,说明系统IO存在瓶颈.须用topas,iostat等命令确定瓶颈所在并增加IO吞吐量。磁盘 IO 吞吐监控方式:通过iostat命令检查磁盘IO状况操作示例:#iostat210参数说明:2表示每隔2秒取样一次,10表示共取样10次。这2个参数的数值可以根据需要自由定义。输出本例:#iostat210Systemconfiguration:lcpu=16drives=108ent=8.00paths=3vdisks=0tty:tintout avg-cpu:%user%sys%idle%iowaitphysc%entc0.00.00.00.01

8、00.00.00.00.1Disks:%tm_actKbpstpsKb_readKb_wrtnhdisk00.00.00.000hdisk10.00.00.000hdisk20.00.00.000hdisk40.00.00.000hdisk30.00.00.000cd00.00.00.000输出说明:输出结果输出结果会按照每个磁盘进行排列,主要观察的参数如下:4.%2%tm_act说明该磁盘处于活动状态的时间比率。5.%2Kbps说明该磁盘每秒的读写数据量。如果tm_act长期处于90%以上的状态,且Kbps数据量很大,则说明该磁盘繁忙程度过高,需要通过增加磁盘或者更改应用来将数据量平均分配到

9、其他磁盘。内存及虚拟内存使用率监控方式:通过lsps-a命令查看交换分区状况来了解系统内存及虚拟内存使用情况。操作示例:#lsps-a输出示例:#lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg6144MB1yesyeslv输出说明:1.%2.%3PageSpace列出该交换分区的逻辑卷名称。2.%2.%3PhysicalVolume:列出该交换分区位于那个物理卷,在有条件的情况下建议交换分区分散分布在不同的物理卷上以提高性能。3.%2.%3Size:该交换分区的大小。一般交换分区的大小

10、不应小于物理内存的大小,对于硬盘空间紧张的系统,至少也要保证物理内存的一半大小。4.%2.%3%Used:交换空间的使用率。如果使用率长期高于80%,需要增加交换分区的大小(该操作可在线完成)。5.%2.%3Active:表示该分区是否已经激活。6.%2.%3Auto:表示该分区是否在每次重启后自动激活.。硬盘空间监控方式:通过#lsvgrootvg命令查看卷组信息来了解硬盘空间分配情况。操作示例:#lsvgrootvg输出示例:VOLUMEGROUP:rootvgVGIDENTIFIER:000bc6fd00004c00000000fda469279dVGSTATE:activePPSIZE

11、:16megabyte(s)VGPERMISSION:read/writeTOTALPPs:542(8672megabytes)MAXLvs:256FREEPPs:431(6896Megabytes)LVs:9USEDPPs:111(1776megabytes)OPENLVs:8QUORUM:2TOTALPVs:1VGDESCRIPTORS:2STALEPVs:0STALEPPs:0ACTIVEPVs:1AUTOON:yesMAXPPsperVG:32512MAXPPsperPV:1016MAXPVs:32LTGsize(Dynamic):256kilobyte(s)AUTOSYNC:noHO

12、TSPARE:noBBPOLICY:relocatable输出说明:(1)主要指标为PPsize和FreePPs。(2)通过查看FreePP颉可以了解该VG还有多少空间可以使用。FreePPsXPPsize就是VG剩余空间的大小。如果Free的PP个数与TotalPP个数相比已经非常小,说明空间已经不足,如果该VG内容会不断增长,请及时增加VG的大小综合监视命令 topas监控方式:通过topas命令报告选定的本地系统活动的统计信息。该命令使用curses库以合适的格式来显示其输出,该格式适合于在一个80 x25基于字符的显示器上或至少同样大小的图形显示器的窗口中进行查看。操作示例:#topa

13、s输出示例:_IQ3Ifa二丫,一1kLE-BHJ35%WleIf4,rW-Ig事 4 MonMon1071107133:35200733:352007IntervalInterval::2:2CsuitchSySCAllCsuitchSySCAll50050012991299Readch487Readch487vtXtecb9Q3vtXtecb9Q30 0+ +S S1#1#1 1ReadsReads2 2Ravin0Ravin0UserUserO.SO.S1#1#1 1WritesWrites1Ttyout4S9Ttyout4S9UaitUait。.口1 11 1ForFor0 0工qet

14、qet等0 0IdleIdlei i制#楣糕#*#蒯触刑融#f fExecsExecsPunqueuePunqueue0 00.00.0Nuoei25Nuoei25Dirblk0Dirblk0enlenl0,60,6IPackOPackKB-InIPackOPackKB-In1,01,0D.1,01,0D.s s.l.lKBOuc0,5KBOuc0,5VaicqueueVaicqueueQ.Q.。L LD DO O0,10,11.01.01,01,0口.0 00.00.0PAGIHGFaultsPAGIHGFaults1MEMOPYReal,KBMEMOPYReal,KB% %095095Di

15、skDiskKBPSKBPSTPSKBReadTPSKBReadKB-UTltKB-UTltStSt A13A130 0*Comp13*Comp13a ahdiskOhdiskO0.00.00.0.。0.00.0。.0 0a 口PgsplnPgspln0 0与Monconip87.Monconip87.1 1hdlsklhdlskl0.00.00.00.0OrO0.0OrO0.00.00.0PgspOutPgspOut0 0* *1lent0.51lent0.50.00.0Q,CQ,CQ.Q0.0Q.Q0.00,00,0P P程井0 0cdOcdO0,00,00,00,00.00,00.00,

16、00 0 0 0PageOutPageOut0 0PAGINGSPICEPAGINGSPICEriri上七X Xtopatopam msyncdsyncdprngdprngdrpcrpc. .lolocknfsdcknfsdcclccl14imd14imddtwmdtwmmitmitdtfiledtfilecroncronrshellrshellnttmnttmD.OD.O0*00*0PIDCP,15Z5&0.8PIDCP,15Z5&0.822320223200.20.213Q113Q1占0,00,09000.09000.0103200,0103200,0124340.0124340.0191

17、S40.0191S40.0Z68730.0Z68730.02823B0/02823B0/0179050.0179050.02S3S20,02S3S20,0227S20.0227S20.096040.096040.0207000.0207000.010.010.03723a0,Q3723a0,Q20*1440.020*1440.027200.027200.033340.033340.0100620.0100620.00.00.00.00.0PqSpOtfnerPqSpOtfner2 2r rS Sroot1root1*5*5coatcoat口root0root0+ +0 0cootcoot0.1

18、t0.1toot1oot1+ +1root0*2too1root0*2toot t.Qroot.Qroot口.。rootroot。+日coot1coot1+ +3troac3troac1 1. .9 9r rdsds 0root1.8fdm0root1.8fdm07rootQ.2root107rootQ.2root1. .7 7rdsrds,4root,4root.日u?u? r r0*0*口rootroot0.00.0SiSi口j j0 0NFS(calls/jec)3erverV20NFS(calls/jec)3erverV20ClientVZ0ClientVZ05erverV305erv

19、erV30ClientV30ClientV30SlEeSlEer rK6096K6096*UsedQ,5*UsedQ,5+ +Free99.4Free99.4Press:Press:,r,rhtorhelphtorhelp“qHcoquiqHcoquit t输出说明:使用topas命令可以对CPU,网络,IO,进程等很多方面进行监控,并输出到屏幕上。输出结果只能通过显示屏实时显示,无法导出。(1)CPU。最左上显示CPU的使用情况,User:显示以用户方式执行的程序所使用的CPU的百分比,(缺省按用户百分比排序)Kernel:显示以内核方式执行的程序所使用的CPU的百分比Wait:显示用于等待

20、IO的时间的百分比。Idle:显示CPU空闲时间的百分比。(2)网络。CPU下方是网络部分的使用情况,显示目前最繁忙的网络接口的信息KBPS:每秒的网络接口流量,KByte为单位。(3)磁盘。网络下方是磁盘,显示目前最繁忙的磁盘的信息busy%:磁盘的繁忙程度,100为最高。KBPS:每秒的磁盘读写流量,KByte为单位。(4)进程安装占用系统资源多少排列,列出占用系统资源最多的进程。Name:进程名PID:进程的系统ID号CPU%:进程占用的CPU的百分比PgSp:进程占用的交换空间的比率。(5)其它可用#mantopas命令得到该命令的全部指标说明,在此不做详述。HP 小型机性能监控方案H

21、P 小型机性能监控方案CPU 平均使用率监控方式:通过sar-u命令检查系统CPU平均使用率。操作示例:#sar-u330(每隔3秒采样一次,共采样30次)输出本例:rx3600-1tt/sar-u310HP-UXFX360G-1B.11.23UiaG412/2S/0721:20:22%usrXsys海ioZidle21:26:2500O10021:20:281119721:20:3101009621:26:3400010021:2日:3700010021:26:460GQ10621:20:H3000100rx36O0-1tt/sar-uM310HP-UXrx3GQ0-1B.11.23UiaG

22、H12/28/0721:20:52cpuZusrys%uioZidle21:20:5500i29710g19999200199300199system0019999输出说明:(1)在业务高峰期使用sar-u命令%usr:用户模式占用的时间百分比%sys:系统模式占用的时间百分比%wio:用于块、字符和虚拟内存管理的I/O管理时间%idle:CPU的空闲时间sar-uM:显示主机上每个cpu的使用情况.结果分析:首先应看idle是否接近于0.如果是,那么看wio是否大于7%.如果亚2大于7%,可能需要考虑是否有IO瓶颈。如果WiO很小,但CPU依然很忙,要看一下口5与%5丫5的比率。如果usr很

23、高,则可能说明用户的应用程序造成CPU瓶颈。如果大部分时间被%sys占用,需要进一步分析为什么系统会占用这么多时间。比如说内存的瓶颈,造成操作系统频繁的做swapping操作,就是一个可能的原因。参考标准:对于一个典型的系统,通常的建议值是:%usr%sys%wio%idle6025015IO 所占用 CPU 使用率监控方式: 记录wio值 (数据采样方式见上述CPU平均使用率的数据采样方式)。如果wio较高,可使用sar-d命令观察各个设备的状态,作进一步分析/sar/sard d310HP-UXrx36O0-1B,11,23Ui日6412/28/0721:40:19device*busya

24、uquer+w/sblks/sauua1tauseru21:40:22c3ted01,990.503530.0012,3821:40:25c3td。i.oo0,50i24o.ee11,SB21:皿28c3t日d。3,670,50691乩。18.5621:40:31c3t0d03,000,505940.0016,5921:40:34c3ted03,000,505820,0020,5421:40:37c3ted01,330,502270,0011,22rx3600_1tt/sar-w310HP-UXrx3600-1BJ1,23UiaS1Z/28/0721:皿5日supin/sbswin/ssnpo

25、t/sbsuot/spswch/s21:40:530,00。.日0.。16221:皿560.00。.日邛口邛20921:HO:590,00EL。EL。19721:41:620,0ELEI。ELEI2M21:41:05e,eee.ee,eee.e212结果分析:通常一个设备的busy50%则说明可能存在IO瓶颈。另外一个标志是其avwatavserv。另外,系统中各个设备的使用应该比较均衡。检查哪些设备使用率明显高于其他设备。如果该设备是存放用户数据库数据,那么可以考虑建议用户将这部分数据尽量分散到多个设备上。如果是操作系统盘,需要关注是不是在做大量的swapping操作(内存瓶颈,sar-w)

26、。内存占用率监控方式:通过top命令检查系统内存的使用情况。操作示例:#top输出本例:ten:rx3G66-1rx3G66-1FriFriDec2S21Dec2S21:M5M5L L3C3C2G0T2G0TLoadLoadm muormgomuormgom;0 0. .0101.9.G1,.9.G1,G.91G.911asas:142142sleepingsleeping? ?42running42running, ,1111zombiezombieCpustatstat s s:CPULOADUSERUSERNICENICESVSIDLEBLOCKSVSIDLEBLOCKSldITSldI

27、TINTRSSVSINTRSSVSD D0 0 .ozo.g.ozo.g芯G.0ZG.0Z1.OX99QZoex1.OX99QZoexQ.3ZQ.3Z0 0. .0ZO.GZ0ZO.GZ1e e OQQ.ezOQQ.ez。一鼓6OX16OX1QQ.QQ.0%0%Q QGexexe eoxoxa.exa.exz z0 0 ,00,000.Q%0.Q%0.0X0.0Xe.exe.ex100,100,Q Q o o,ex,exe.aze.aze.e.ox9.exox9.ex3 3Q Q.coo.ex.coo.ex0.S5L。白乂1 100.00.GZGGZGeezeez0.0.。戈a.exa.exm

28、ugmug0 0 .01e.ez.01e.ezO.OZO.OZ1 1QXQX99.OXQ.ex99.OXQ.ex0920920.0.o%o.exo%o.exMemoryMemory二1414白君3939白K(1inai76C)realK(1inai76C)real, ,3S9Q056K3S9Q056K(3n56C&8K)(3n56C&8K)uirtual9G3912KfresPaguirtual9G3912KfresPagee1/211/21CPUTT7PIDUSERNAMEPRIPIDUSERNAMEPRINISIZENISIZERE$RE$STATETIMESTATETIMEXMCPUNC

29、PUCOMMAND2? ?226groot226groot1521522e1G33N2e1G33N331M331Mrunrun121121sese2.172.16mxdcmainngr3 37 754root54root1S21S22621GCJ2621GCJ冰192MK192MKrunrun26S26S42421.1.72721,72uxf*d1,72uxf*d2 2? ?2267root2267root15215220364H20364HST884KST884Krunrun373709090.5656mxdtf1? ?1477root1477root152152261G2H261G2H3G

30、928K3G928Krunrun6363SSSS9.53G9.53G. .53cimserutr53cimserutr3 3? ?233233rootroot15215220457N20457N237M237Mrunrun424238380.430.43,43mxinvtntory,43mxinvtntory1 1? ?19523root19523root1521522 2日454N454N112M112MrunrunS S15150.40G0.40G. .micinuentorymicinuentory1? ?1485root1485root1521522G2G33372K33372K255

31、2K2552Krunrun59359316160.360.36 .36cimprouagt.36cimprouagt结果分析:在memory:一行有xxxxxkfree一项,为系统当前的剩余内存数。按照当前的空闲内存为0.9G,如系统当前的物理内存总量为8G,则当前的内存占用率可通过如下方法计算得出:(8-0.9)/8=0.89,即系统当前的内存占用率为89%交换区使用情况监控方式:通过swapinfo-atm命令检查交换去使用情况操作示例:#swapinfo百tm输出示例:MbMbMbPCTSTART/MbTYPEAVAILUSEDFREEUSEDLIMITRESERVEPRINAMEdev

32、2560025600%0-1/dev/vg00/kol2reserve-559-559total2560559200122%-0-结果分析:swap区正常情况下应当使用率没有大的变化,应注意监控该参数的变化。参考经验值:一般情况下,判定参考经验值如下:CPU禾I用率90%硬盘I/O60%-70%等待队列3内存使用率85%且没有交换网络PING延时小且没有包冲突满足上述指标的可以视为设备性能是正常的,但是性能问题是非常复杂的,往往需要非常专业的技术人员或者团队进行分析以查找产生的原因,同时单一的数据指标仅仅可以作为参考使用.EMC 存储性能监控方案对国家税务局省局的系统平台进行性能监控时,可利用

33、EMC专业的性能分析工具,从FA端口、内存、DA卡及物理磁盘等几个层次进行性能监控,并记录相关检查点数据。EMC 存储性能分析工具EMC性能分析可通过ECC软件和命令行方式来进行。ECC软件方式。(一)监控方式描述:ECC软件可后台收集磁盘阵列性能数据,收集间隔为15分钟一次,将每天的性能信息生成BTP和TTP文件,做成历史文档。用户可以通过start-programs-ECC-WLAperformanceview启动性能监控界面,选择打开本地硬盘的c:eccWLA.目录下某一天的性能文件*btp来分析以前的历史数据。检查频率:每天一次,自动生成*btp性能文件。处置方案:*btp文件是以日期

34、为头来命名,自动保存在ECC服务器中,可随时抽样检查。管理员需每天在ECC服务器的相应目录下确认是否成功生成该文件。(二)命令行方式。监控方式描述:在主机上通过EMCSolutionEnabler的symstat命令。用来监控每个Lun的使用率,读写IOPS,读写IOThroughputWritePendingCount,监控整个盘阵的性能指标。检查频率:每天收集4次性能数据,分别为10:00,12:00,14:00,16:00处置方案:定时运行脚本,将脚本输出内容导出到文件中,定期填写表格并保存该原始文件。EMC 存储设备性能监控方案ECCECC软件主要用于故障告警,在正常运行状态下的数据采

35、集多采用命令行方式进行。命令行只能收集实时的数据,最好在业务繁忙期进行收集最有代表性。(一)设备性能监控命令如下:1、/usr/symcli/bin/symstat-i*-c*/usr/emc/symstat.071228用来收集整个存储的磁盘性能数据, 导入到/usr/emc目录下的“symstaB期”的文件中,-i后面跟的参数是指收集数据的间隔时间”,-c后面跟的参数是指收集多少次”。2、/usr/symcli/bin/symstat-dirall-i*-c*/usr/emc/symstat_dir.071228用来收集整个存储的通道流量, 导入到/usr/emc目录下的“symstat_

36、dir.日期”的文件中,-i后面跟的参数是指收集数据的间隔时间”, -c后面跟的参数是指收集多少次”。3、同时,可以使用/usr/symcli/bin/symevent-errorlist/usr/emc/symevent.error来收集存储的错误报警信息,导入到/usr/emc目录下的“symevent.error”的文件中,定期传给EMC工程师来监控,看是否存在存储故障。(二)导出文件实例:命令行方式导出文件的命名方式(推荐使用):/usr/symcli/bin/symstat/usr/emc/.symstat.-dirall/usr/emc/.symstat-dir./usr/emc/.symstat.和-dirall/usr/emc/.symstat-dir./usr/emc/symstat.2、通道流量监控命令/usr/symcli/bin/symstat-dirall-i*-c*/usr/emc/symstat_dir.3、错误报警信息收集/usr/symcli/bin/symevent-errorlist/usr/emc/symevent.error4、导出文件命令/usr/symcli/bin/symstat/usr/emc/.symstat.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!