完整word版,weblogic日常维护总结与故障诊断

上传人:B**** 文档编号:41529766 上传时间:2021-11-21 格式:DOC 页数:22 大小:886.50KB
收藏 版权申诉 举报 下载
完整word版,weblogic日常维护总结与故障诊断_第1页
第1页 / 共22页
完整word版,weblogic日常维护总结与故障诊断_第2页
第2页 / 共22页
完整word版,weblogic日常维护总结与故障诊断_第3页
第3页 / 共22页
资源描述:

《完整word版,weblogic日常维护总结与故障诊断》由会员分享,可在线阅读,更多相关《完整word版,weblogic日常维护总结与故障诊断(22页珍藏版)》请在装配图网上搜索。

1、中间件故障诊断总结一、步骤:1、准确描述现象:客户说的和自己查看到的:平台、版本、操作、信息等。特别是,故障前是否有做过什么操作:网络调整、设备调整、主机参数调整、配置文件修改 反正将这一切都列入排查的对象。2、使用工具收集数据,收集配置文件、日志、dump文件等等。3、 使用分析数据,根据问题或收集的数据,使用适当的工具分析数据,当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。4、 尝试解决问题,根据找到的问题点,尝试解决。如修改错的,复原正确的;运行有问题的,适当调整运行的环境和运行的参数等等。5、 给出最佳解决方案,一般就是继续观察了。6、总结经验并加以重用,知识积累。二、通过

2、前台收集基本的信息:1、重点是故障前做过的操作2、比对运行平台是否在官方的兼容性列表中,一般就是关注各个版本,特别是一些比较怪异的问题3、检查环境和参数,如能打开控制台,就在控制台中初步观察,一般进入控制台的格式是http:/ip地址:端口/console如:http:/192.168.0.89:7001/console/。常用的留意点如下:A、 域运行状态(域- 监视 - 健康状况);一般为running状态,如果不是running ,那这些界面就没有了。B、 服务器运行状态(域 - 环境 - 服务器),正常的为 running 。C、 各个 server 性能( JVM)状态(域 - 环境

3、 - 服务器,点击具体的 serve 后进入,监视 - 健康状况) ; 留意 JVM 堆中当前可用的内存量。不同的 JVM,所显示的内容可能不一样,以下为sun 的:D、 各个 server 线程状态(域 - 环境 - 服务器,点击具体的 serve 后进入,监视- 线程);一般来说,空闲线程要多;健康状况为 ok如下图 health状态为: Warning,这个是有线程阻塞的 。阻塞线程的内容为:# Servers右侧菜单: AdminServer(admin)-logging只找到 examplesServer.log、 access.log配置如图 :4、其他如果日志太少, 里面没有记载

4、相关信息, 可参照日志文件的回滚设置。 在“滚动类型 : ”属性页中可以设置这些日志文件的回滚方式,当日志文件到一定得大小或过了设定的时间后,把日志信息保存到一个新的文件中。WebLogic提供按文件大小和时间两种方式。如下面的设置种,选择Rotation Type为 BY SIZE。也就是当日志文件的大小达到 500K 时,重新写一个新的文件。假如 Rotation Type 为 BY TIME,那么是每隔一段时间重新写一个新的文件。并且对这些文件编号设置日志文件名如: _%yyyy%_%MM%_%dd%_%hh%_%mm%5、日志的处理:查看日志中输出的具体内容,再进行处理。如: BEA-

5、下面是一个线程阻塞的一个信息# STUCK ExecuteThread: 1 for queue: weblogic.kernel.Default (self-tuning) has been busy for 2,503seconds working on the requestweblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpldeab5f,which is more than the configured time (StuckThreadMaxTime) of 2,400seconds. Stack trace:四、产生 hre

6、ad Dump 来分析问题hread Dump 是非常有用的诊断 Java 应用问题的工具,每一个 Java 虚拟机都有及时生成显示所有线程在某一点状态的 thread-dump 的能力。虽然各个 Java 虚拟机 thread dump 打印输出格式上略微有一些不同,但是 Thread dumps 出来的信息包含线程; 线程的运行状态、 标识和调用的堆栈; 调用的堆栈包含完整的类名,所执行的方法,如果可能的话还有源代码的行数。Thread Dump特点:? 能在各种操作系统下使用? 能在各种 Java 应用服务器下使用? 可以在生产环境下使用而不影响系统的性能? 可以将问题直接定位到应用程序

7、的代码行上Thread Dump能诊断的问题包括:?查找内存泄露,常见的是程序里 load 大量的数据到缓存发现死锁线程收集 Thread Dump进行 Thread Dump 的方法取决于安装挂起服务器实例的操作系统。有关在不同的操作系统上进行 Thread Dump 的信息,Solaris OS- (Control-Backslash)kill -QUIT LinuxLinux操作系统查看线程的方式不同于其它操作系统。该操作系统将每个线程视为一个进程。若要在 Linux 上进行 Thread Dump,查找通过其启动所有其它进程的进程 ID 。使用命令:? 若要获得根 PID ,使用: p

8、s -efHl | grep java *. *使用一个作为字符串的 grep 参数(可在与服务器启动命令匹配的进程堆栈中找到该字符串)。如果 ps 命令还没有管道传送到另一个例程, 则报告的第一个 PID 将是根进程。IBM AIX在 AIX 上用 IBM 的 JVM,内存溢出时默认地会产生javacore文件(关于 cpu和 heapdump文件 ( 关于内存的 ) 。执行 kill -3 命令可以生成 javacore件和 heapdump文件(pid 为 was java 进程的 id 号,可以用 ps -ef|grepjava到),可以多执行几次。的)文查有些 Java 应用服务器是

9、在控制台上运行, 如 Weblogic ,为了方便获取 threaddump 信息,在 weblogic 启动的时候,最好将其标准输出重定向到一个文件, 用 nohupsh startWebLogic.sh start.log&命令,执行 kill-3 , Stack trace就会输出到 start.log里。为了反映线程状态的动态变化,需要接连多次做thread dump ,每次间隔 10-20s 。Windows、XP、NT? 设置 DOS窗口的属性: Layout - Screen Buffer Size- Height 9999。? 同时按下 CTRL-BREAK? 找到 Threa

10、d Dump 的最开始的位置: Full thread dump. 每个服务器需要 - 来创建诊断问题所需的 Thread Dump。确保在每个服务器上执行几次, 每次间隔大约 5 到 10 秒,以帮助诊断死锁问题。在 NT 上,在命令 shell 中输入 CTRL-Break 。获取失败时刻的获取失败时刻的Thread Dump? 启动 JVM 时,加入参数:? Sun JVM: -XX:+ShowMessageBoxOnE? JRockit JVM: -Djrockit.waitone五、常见的问题1、Out of Memory? 当 JVM没有足够的内存执行任务时,会触发 java.la

11、ng.OutOfMemoryError? 当没有更多内存可以分配时? 或空闲的内存有太多碎片,无法利用时? 可能不足的内存类型有可能不足的内存类型有: :? Native(物理内存)? Heap(堆内存)? 特定 Java 内存代(例如, permanet )对 Out of Memory 的响应的响应? JVM 会发送 error 到标准输出流和错误输出流? WLS会将应用程序没有处理的 Java 异常和错误都输出到服务器日志? Out-of-Memory 和类似的系统错误不应该由应用程序直接处理接处理? 如果应用程序发生错误,会给客户端返回错误信息(例如 HTTP 500)? 如果 WLS

12、子系统发生错误,则服务器处于不稳定状态,需要重启内存泄漏内存泄漏? 内存泄漏:? 最常见的引发 Out-of-Memory 错误的原因? 在 Java 中,内存泄漏并不常发生(相对传统语言)? 内存泄漏的原因是当对象不再被需要时,没有显式声明,进而没有被垃圾回收处理? 常见的场景有:? 太大的缓存造成内存泄漏? 太多使用 HTTP会话,导致内存泄漏? 对数据库操作结束时,没有正常关闭数据集及数据连接? 动态类加载问题错误日志错误日志? 该日志文件通常包括如下类型的信息:? 操作系统错误消息? JVM 版本? 硬件和操作系统参数? 系统环境变量? 堆和垃圾回收汇总? 线程汇总Runtime da

13、ta area 域 ), Java Stack(java主要包括五个部分: Heap ( 堆), Method Area(方法区的栈 ), Program Counter(程序计数器 ), Native methodstack( 本地方法栈 ) 。 Heap 和 Method Area 是被所有线程的共享使用的;而Java stack, Program counter和 Native method stack是以线程为粒度的,每个线程独自拥有。HeapJava 程序在运行时创建的所有类实或数组都放在同一个堆中。而一个Java 虚拟实例中只存在一个堆空间,因此所有线程都将共享这个堆。每一个 ja

14、va 程序独占一个 JVM实例,因而每个 java 程序都有它自己的堆空间, 它们不会彼此干扰。但是同一 java 程序的多个线程都共享着同一个堆空间,就得考虑多线程访问对象(堆数据)的同步问题。(这里可能出现的异常 java.lang.OutOfMemoryError:Java heap space )Method area在 Java 虚拟机中,被装载的 class 的信息存储在 Method area 的内存中。当虚拟机装载某个类型时,它使用类装载器定位相应的 class 文件,然后读入这个 class 文件内容并把它传输到虚拟机中。紧接着虚拟机提取其中的类型信息,并将这些信息存储到方法

15、区。该类型中的类(静态)变量同样也存储在方法区中。与 Heap 一样, method area 是多线程共享的,因此要考虑多线程访问的同步问题。比如,假设同时两个线程都企图访问一个名为 Lava 的类,而这个类还没有内装载入虚拟机, 那么,这时应该只有一个线程去装载它, 而另一个线程则只能等待。(这里可能出现的异常java.lang.OutOfMemoryError: PermGen full)Java stackJava stack 以帧为单位保存线程的运行状态。虚拟机只会直接对 Java stack 执行两种操作:以帧为单位的压栈或出栈。每当线程调用一个方法的时候,就对当前状态作为一个帧保

16、存到 java stack 中( 压栈 ) ;当一个方法调用返回时,从 java stack 弹出一个帧 ( 出栈 ) 。栈的大小是有一定的限制,这个可能出现 StackOverFlow 问题。 下面的程序可以说明这个问题。public class TestStackOverFlow public static void main(String args) Recursive r = new Recursive();r.doit(10000);/ Exception in thread mainjava.lang.StackOverflowErrorclass Recursive public

17、 int doit(int t) if (t = 1) return 1;return t + doit(t - 1);Program counter每个运行中的 Java 程序,每一个线程都有它自己的PC寄存器,也是该线程启动时创建的。 PC 寄存器的内容总是指向下一条将被执行指令的饿 “ 地址 ” ,这里的 “ 地址 ” 可以是一个本地指针,也可以是在方法区中相对应于该方法起始指令的偏移量。Native method stack对于一个运行中的 Java 程序而言,它还能会用到一些跟本地方法相关的数据区。当某个线程调用一个本地方法时, 它就进

18、入了一个全新的并且不再受虚拟机限制的世界。本地方法可以通过本地方法接口来访问虚拟机的运行时数据区, 不止与此,它还可以做任何它想做的事情。比如,可以调用寄存器,或在操作系统中分配内存等。总之,本地方法具有和 JVM相同的能力和权限。 ( 这里出现 JVM无法控制的内存溢出问题 native heap OutOfMemory )旧系统2、服务器挂起问题描述在出现以下情况时怀疑服务器挂起:? 服务器不响应新的请求。? 请求超时。? 请求处理的时间越来越长(其最终结果可能是挂起) 。? 通常,服务器挂起不会表现为服务器崩溃,但服务器挂起之后可能会崩溃。? 资源濒临枯竭:内存、工作线程、数据库连接池

19、故障排除请注意,并非下面所有任务都需要完成。有些问题仅通过执行几项任务就可以解决。快速链接:为什么发生此问题?服务器挂起的可能原因基本步骤已知的 WebLogic Server收集 Thread Dump问题Thread Dump 分析为什么发生此问题?服务器挂起有多种原因。 一般而言,服务器挂起是因为缺少某种资源。 缺少资源会阻止服务器响应服务请求。例如,由于故障(死锁)或者大量请求的缘故,可能没有任何可用的执行线程来完成工作, 所有执行线程都被占用或忙于处理以前的请求。引起引起 Server Hang 的原因的原因? 工作线程太少? 垃圾回收占用时间太多? JVM 代码优化问题? 应用程序

20、死锁? JDBC 死锁? Remote JNDI lookups? JSP 编译? JSP 不正确的设置: PageCheckSeconds? JVM bug服务器挂起的可能原因主题模式名称链接RMI、 RJVM响应 所有绑定线程等待RJVM、RMI 响应。EJB_RMI 服务器挂起 EJB_RMI 服务器挂起应用程序死锁 线程锁定资源 1 ,然后等待锁定资源2 。另一个线程锁定资源2,然后等待锁定资源1 。应用程序死锁导致服务器挂起待定线程全部被占用,没有线程可用于新工作。线程占用导致服务器挂起待定垃圾回收花费太多时间。垃圾回收导致服务器挂起待定servlet时间的 JSP 错误设置,比如P

21、ageCheckSeconds。JSP导致服务器挂起待定死锁造成 JDBC 挂起。(代码优化)过程中的待定在大量负载情况下JSP定JDBC 中的服务器挂起待定JVM 挂起类似于服务器挂起。编译造成服务器挂起。JSP代码优化中服务器挂起编译导致服务器挂起待SUN JVM错误,比如轻量型线程库。Sun JVM 错误导致服务器挂起待定返回页首基本步骤当服务器挂起时,首先使用java weblogic.Admin t3:/server:port PING来ping 该服务器。如果服务器能够响应此 ping ,则可能是应用程序正在挂起而不是服务器自身。确保服务器确实正在挂起, 而不是在 做垃圾回收。若要

22、 验证挂起,启用-verbosegc重新启动服务器,然后将 stdout和 stderr重定向到一个文件中。当服务器停止响应时,可以判断它是正在收集无用信息还是确实挂起。 WebLogic Server 使用“ Default ”线程队列响应客户端服务请求。这些是在发生服务器挂起时应当检查的线程。下面是其中一个线程在 Thread Dump 中的形式示例 。 Execute Thread 14 正在 等待任务 。 该 线程调用 的最后方 法是Object.wait()。ExecuteThread: 14 for queue: default daemon prio=5 tid=0x8b0ab3

23、0 nid=0x1f4 waiting on monitor 0x96af000.0x96afdc4 atjava.lang.Object.wait(Native Method)atjava.lang.Object.wait(Object.java:420)atweblogic.kernel.ExecuteThread.waitForRequest(ExecuteThread.java:94)atweblogic.kernel.ExecuteThread.run(ExecuteThread.java:118)确定“ Default ”ExecuteThread 队列是否超载。利用控制台确定“D

24、efault ”队列中的所有 ExecuteThreads是否空闲。如果没有一个空闲, 则应用程序可能需要一个更大的 ExecuteThread数来配置。可以通过控制台更改该值,并将其保存在 config.xml文件中。如果执行队列有空闲线程,则可能没有分配足够的Socket Reader线程。缺省情况下, WebLogic Server实例在启动时创建三个Socket Reader线程。如果群集系统在高峰期使用的Socket Reader 线程超过三个,则增加 Socket Reader线程的数量。通常, Socket Reader 线程的数量应当较小。但是,如果Weblogic Serve

25、 充当正在挂起的服务器实例的客户端,则应当为每个 Weblogic Serve 配置一个线程。如果使用 JDBC 连接池,确保池中已经配置的 JDBC 连接数量与同时请求 (即执行线程)的数量相等。已知的 WebLogic 问题JDBC 产生死锁问题的可能性存在。检查在 weblogic.log 开头找到的服务器的版本和 Service Pack 级别。然后对已经应用于服务器类路径的所有临时修补程序检查以上版本和 Service Pack 行。修补程序将指明已经解决了什么问题。Thread Dump分析分析服务器挂起的最有用的工具是一系列Thread Dump。 Thread Dump 提供关

26、于每个线程在特定时刻正在执行什么操作的信息。一系列Thread Dump(一般每隔5 到 10秒进行三个或更多Thread Dump )可以帮助分析每个线程从一个Thread Dump 到另一个 Thread Dump 过程中的状态变化或所缺少的变化。挂起服务器 Thread Dump 一般显示线程状态从第一个 Thread Dump 到最后一个 Thread Dump 中变化很小。在 Thread Dump 中查看的内容所有请求都通过ListenThread进入 WebLogic Server 。如果 ListenThread丢失,就无法接收任何工作,因此也无法完成任何工作。确认在Threa

27、d Dump 中存在 ListenThread。ListenThread应当在 socketAccept方法中。下面示例说明监听线程 (Listen Thread)的形式。ListenThread.Defaultprio=10tid=0x00037888nid=93lwp_id=6888343runnable 0x 1a81b000.0x1a81b530at .PlainSocketImpl.socketAccept(Native Method) at.PlainSocketImpl.accept(PlainSocketImpl.java:353)- locked (a .PlainSocke

28、tImpl) at .ServerSocket.implAccept(ServerSocket.java:439)at.ServerSocket.accept(ServerSocket.java:410)atweblogic.socket.WeblogicServerSocket.accept(WeblogicServerSocket.java:24)atweblogic.t3.srvr.ListenThread.accept(ListenThread.java:713)atweblogic.t3.srvr.ListenThread.run(ListenThread.java:290)Sock

29、et Reader 线程接受来自监听线程队列的传入请求, 并将该请求放入执行线程队列。如果 Thread Dump中没有 Socket Reader 线程,则在某个地方存在导致 Socket Reader 线程消失的错误。应当始终保持至少有三个 Socket Reader线程。一个下面是一个Socket Reader Thread Dump线程一般用于轮询功能,另外两个用于处理请求。示例中的 Socket Reader线程。ExecuteThread: 2 for queue: weblogic.socket.Muxer daemon prio=10 tid=0x00036128 nid=75

30、 lwp_id=6888070 waiting for monitor entry 0x1b12f000.0x1b12f530atweblogic.socket.PosixSocketMuxer.processSockets(PosixSocketMuxer.java:92)- waiting to lock (a java.lang.String) at weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32)at weblogic.kernel.ExecuteThread.execute(Execut

31、eThread.java:178)atweblogic.kernel.ExecuteThread.run(ExecuteThread.java:151)ExecuteThread: 1 for queue: weblogic.socket.Muxer daemon prio=10tid=0x00035fc8nid=74lwp_id=6888067runnable0x1b1b0000.0x1b1b0530atweblogic.socket.PosixSocketMuxer.poll(Native Method)atweblogic.socket.PosixSocketMuxer.processS

32、ockets(PosixSocketMuxer.java:99)- locked (a java.lang.String)at weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32)at weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:178) atweblogic.kernel.ExecuteThread.run(ExecuteThread.java:151) ExecuteThread: 0 for queue: weblogic.s

33、ocket.Muxer daemon prio=10 tid=0x00035e68 nid=73 lwp_id=6888066 waiting for monitor entry 0x1b231000.0x1b231530atweblogic.socket.PosixSocketMuxer.processSockets(PosixSocketMuxer.java:92)- waiting to lock (a java.lang.String) at weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32

34、)at weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:178) at weblogic.kernel.ExecuteThread.run(ExecuteThread.java:151)ThreadPoolPercentSocketReaders属性设定要用于从 java Socket中读取消息的执行线程的最大百分比。 此属性的最佳值是针对应用程序设定的。缺省值为33,有效范围是 1 到 99 。分配执行线程充当 Socket Reader线程可提高服务器接受客户端请求的速度和能力。必须平衡专门用于从 Socket读取消息的执行

35、线程和那些在服务器中执行实际运行任务的线程的数量。后续步骤后续步骤要求进一步分析 Thread Dump。检查 Thread Dump,了解每个线程在服务器挂起时正在执行的操作。 这有助于分析下一个探查阶段。 例如,如果 JSP 编译中涉及许多线程, 参考服务器挂起的可能原因一节可了解进一步的诊断和测试操作。? Ping Servejava weblogic.Admin -url t3:/localhost:7001 -username -password PING如果服务器有响应,说明是应用本身挂起了,服务器并没有挂起。? 检查垃圾回收: verbosegc检查挂起时,是否正在进行频繁的垃圾

36、回收。? 查看工作线程: Listener 、Socket Reader 、Execute是否 Listener/ Socket Reader线程存在,并正常工作?是否 Execute 线程都处在忙碌状态?? 查看 Thread Core Dump 每个线程都在忙些啥?进一步观察分析1. 挂起时仍有空闲的挂起时仍有空闲的 Execute 线程线程挂起时仍有空闲的挂起时仍有空闲的线程线程? 确定 Socket Reade 线程都在正常工作。? 适当提高 Socket Reader 线程数。? 集群环境下需要更多的 Socket Reader 线程。2. 挂起时没有空闲的挂起时没有空闲的 Execute 线程线程挂起时没有空闲的挂起时没有空闲的线程线程? 确定所有线程都在正常工作,没有死锁等现象。? 为耗时较长的请求创建单独的请求队列。? 增加资源:内存、工作线程、数据库连接池 ? 应用检查? EJB RMI calls? JSP calls? 其它检查? 垃圾回收? 代码优化? JVM bugs? JSP 编译问题dump 分析工具 heapAnalyzer

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!