TongWeb运维应急操作
TongWeb 应用服务器是使用 TongWeb 安装介质进行安装后的全量服务配置、功能及资源文件,例如提供的服务管理脚本、服务配置管理、Web 服务、数据库连接池、事务处理服务、安全管理、负载均衡服务、集群管理服务等功能服务的统称。**诊断流程:**查看 APP 服务器进程占用内存情况,查看 JVM 内存使用情况,确认服务器 JVM 内存不足,GC 日志频繁 fullgc。**诊断流程:**查看
TongWeb 运维应急操作
第一章 前言
本文撰写目的为加强系统平台建设工作的规范化管理,为基于 TongWeb 中间件的系统设计和运行维护人员提供规范和参考。
第二章 术语
TongWeb 应用服务器
TongWeb 应用服务器是使用 TongWeb 安装介质进行安装后的全量服务配置、功能及资源文件,例如提供的服务管理脚本、服务配置管理、Web 服务、数据库连接池、事务处理服务、安全管理、负载均衡服务、集群管理服务等功能服务的统称。可独立启动运行并对外提供服务。
TongWeb 域服务(Domain)
TongWeb 域服务,其定义为逻辑服务器。通过 TongWeb 应用服务器的域功能,可创建��多个逻辑服务器。逻辑服务器在功能上和应用服务器相比,裁剪掉了集中管理工具,其它的功能完全一致。
TongWeb 域服务有自己独立的配置信息、日志文件等私有属性,保存在与其对应的域安装目录下。同时与 TongWeb 应用服务器共用一些核心通用的资源(如 lib 文件、license文件、系统应用等),这样每台物理服务器上只需要安装一份 TongWeb 应用服务器,可创建多份 TongWeb 域服务,Web 应用、EJB、Web Service 等服务资源一般部署在 TongWeb 域服务上并对外提供服务。
TW_HOME
TongWeb 产品安装后的根目录如:/opt/TongWeb7.0
DOMAIN_HOME
创建的 TongWeb 域实例的根目录
如:/opt/tw_domain_1 或${TW_HOME}/domains/ tw_domain_1
第三章 应急处理
应急场景
场景一:个别APP 服务器宕机/Crash
**现象描述:**监控报警 APP 服务器状态异常。
**诊断流程:**查看 APP 服务器进程和服务端口是否正常
**影响范围:影响登录到异常服务器上的用户,需要重新登录预计处理时间:**40 分钟
处理方案:处置一:APP 服务器重启
场景二:APP 服务器进程占用CPU 资源高
**现象描述:**监控报警 APP 服务器 CPU 使用率超过告警阈值。
**诊断流程:**查看 APP 服务器进程占用 CPU 和操作系统 CPU 使用情况,确认 CPU 使用率高的原因为 APP 服务器进程导致
**影响范围:登录到异常服务器的用户操作变慢预计处理时间:**20 分钟
启动依据:操作系统 CPU 使用率大于 80%,且主要由应用服务器进程占用
处理方案一:
处置七:查看占用 CPU 高的线程**
处置一:APP 服务器重启
处理方案二:
处置四:定位占用 CPU 资源较高的线程
处置二:手工产生 ThreadDump
处置一:APP 服务器重启
应用验证
场景三:APP 服务器进程内存溢��导致无法正常服务
**现象描述:**APP 服务器进程发生 JVM 内存溢出,导致进程宕机,无法正常对外提供服务
**诊断流程:**查看 APP 服务器进程占用内存情况,以及日志目录是否产生了 heapdump 文件,确认服务器出现了内存溢出
**影响范围:登录到异常服务器的用户操作变慢,影响用户体验预计处理时间:**20 分钟
启动依据:APP 服务器出现内存溢出、产生 heapdump
处理方案:
处置三:手工产生 HeapDump(如果未产生 heapdump)
处置一:APP 服务器重启
应用验证
场景四:APP 服务器 JVM 内存使用过高导致应用响应慢
**现象描述:**应用响应变慢,无法正常对外提供服务
**诊断流程:**查看 APP 服务器进程占用内存情况,查看 JVM 内存使用情况,确认服务器 JVM 内存不足,GC 日志频繁 fullgc
**影响范围:登录到异常服务器的用户操作变慢,影响用户体验预计处理时间:**40 分钟
启动依据:APP 服务器出现 JVM 内存不足、CPU 使用率高处理方案:
处置三:手工产生 HeapDump
处置五:调整 APP 服务器 JVM 内存大小
处置一:APP 服务器重启
应用验证
场景五:APP 服务器数据源使用达到阈值应用缓慢
**现象描述:**APP 服务器数据源连接池使用达到阈值、线程池使用率高、应用响应时间变长。
**诊断流程:**查看数据源连接池达到最大值,且使用率长时间处于
100%
**影响范围:**联机交易出现响应缓慢甚至出现大量交易超时失败等,大量用户无法登陆,影响对外联机服务
**预计处理时间:**20 分钟
启动依据:监控上有 jdbc 连接池高或 WebContainer 线程池使用率高告警。APP 服务器日志中出现获取数据源连接失败或大量线程挂起信息。应用出现访问缓慢或者访问异常
处理方案:(先收集信息再重启服务):处置二:手工产生 ThreadDump
收集数据源 URL、通知数据库专业。
处置六:收集 TongWeb 数据源连接池 trace
处置一:APP 服务器重启
前提是使用了 TongWeb 的数据库连接池,并且处置六修改后,需在下次出现问题的时候进行日志收集和分析。
应急处置
处置一:APP 服务器重启服务
注:通常 APP 异常需要收集信息进行异常分析,中间件信息收集完成后由中间件通知应用重启。具体操作以应用的应急预案为准,以下步骤仅做参考。
恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

处置二:手工产生ThreadDump
恢复步骤:
使用 TongWeb 应用用户登录目标服务器

1、 生成 ThreadDump:
验证方案:

1、 收集 ThreadDump:
处置三:手工产生 HeapDump
恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:
处置四:收集占用CPU 资源较高的线程
恢复步骤:

使用 TongWeb 应用用户登录目标服务器
验证方案:

处置五:调整APP 服务器 JVM 内存大小
恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

1、 验证 JVM 参数是否生效:
处置六:收集TongWeb 数据源连接池 trace
恢复步骤:
使用 TongWeb 应用用户登录目标服务器

1、 开启 Tongweb 数据源连接池 trace:
2、 通过 console 控制台开启数据源连接池 trace:
通过”JDBC 配置”选择对应的连接池,进入编辑页面配置

其中泄露超时时间,可根据实际业务情况设置一个值单位
“秒”
其中泄露回收,开启需要慎重,如果只是要分析是否存在泄露的可能则可不开启。
验证方案:

收集 trace 日志:
处置七:查看占用CPU 高的线程
步骤:

使用 TongWeb 应用用户登录目标服务器
验证方案:

- 其他
更多推荐




所有评论(0)