TongWeb 运维应急操作

第一章 前言

本文撰写目的为加强系统平台建设工作的规范化管理,为基于 TongWeb 中间件的系统设计和运行维护人员提供规范和参考。

第二章 术语

TongWeb 应用服务器

TongWeb 应用服务器是使用 TongWeb 安装介质进行安装后的全量服务配置、功能及资源文件,例如提供的服务管理脚本、服务配置管理、Web 服务、数据库连接池、事务处理服务、安全管理、负载均衡服务、集群管理服务等功能服务的统称。可独立启动运行并对外提供服务。

TongWeb 域服务(Domain)

TongWeb 域服务,其定义为逻辑服务器。通过 TongWeb 应用服务器的域功能,可创建��多个逻辑服务器。逻辑服务器在功能上和应用服务器相比,裁剪掉了集中管理工具,其它的功能完全一致。

TongWeb 域服务有自己独立的配置信息、日志文件等私有属性,保存在与其对应的域安装目录下。同时与 TongWeb 应用服务器共用一些核心通用的资源(如 lib 文件、license文件、系统应用等),这样每台物理服务器上只需要安装一份 TongWeb 应用服务器,可创建多份 TongWeb 域服务,Web 应用、EJB、Web Service 等服务资源一般部署在 TongWeb 域服务上并对外提供服务。

TW_HOME

TongWeb 产品安装后的根目录如:/opt/TongWeb7.0

DOMAIN_HOME

创建的 TongWeb 域实例的根目录

如:/opt/tw_domain_1 或${TW_HOME}/domains/ tw_domain_1

第三章 应急处理

应急场景

场景一:个别APP 服务器宕机/Crash

**现象描述:**监控报警 APP 服务器状态异常。

**诊断流程:**查看 APP 服务器进程和服务端口是否正常

**影响范围:影响登录到异常服务器上的用户,需要重新登录预计处理时间:**40 分钟

处理方案:处置一:APP 服务器重启

场景二:APP 服务器进程占用CPU 资源高

**现象描述:**监控报警 APP 服务器 CPU 使用率超过告警阈值。

**诊断流程:**查看 APP 服务器进程占用 CPU 和操作系统 CPU 使用情况,确认 CPU 使用率高的原因为 APP 服务器进程导致

**影响范围:登录到异常服务器的用户操作变慢预计处理时间:**20 分钟

启动依据:操作系统 CPU 使用率大于 80%,且主要由应用服务器进程占用

处理方案一:

处置七:查看占用 CPU 高的线程**

处置一:APP 服务器重启

处理方案二:

处置四:定位占用 CPU 资源较高的线程

处置二:手工产生 ThreadDump

处置一:APP 服务器重启

应用验证

场景三:APP 服务器进程内存溢��导致无法正常服务

**现象描述:**APP 服务器进程发生 JVM 内存溢出,导致进程宕机,无法正常对外提供服务

**诊断流程:**查看 APP 服务器进程占用内存情况,以及日志目录是否产生了 heapdump 文件,确认服务器出现了内存溢出

**影响范围:登录到异常服务器的用户操作变慢,影响用户体验预计处理时间:**20 分钟

启动依据:APP 服务器出现内存溢出、产生 heapdump

处理方案:

处置三:手工产生 HeapDump(如果未产生 heapdump)

处置一:APP 服务器重启

应用验证

场景四:APP 服务器 JVM 内存使用过高导致应用响应慢

**现象描述:**应用响应变慢,无法正常对外提供服务

**诊断流程:**查看 APP 服务器进程占用内存情况,查看 JVM 内存使用情况,确认服务器 JVM 内存不足,GC 日志频繁 fullgc

**影响范围:登录到异常服务器的用户操作变慢,影响用户体验预计处理时间:**40 分钟

启动依据:APP 服务器出现 JVM 内存不足、CPU 使用率高处理方案:

处置三:手工产生 HeapDump

处置五:调整 APP 服务器 JVM 内存大小

处置一:APP 服务器重启

应用验证

场景五:APP 服务器数据源使用达到阈值应用缓慢

**现象描述:**APP 服务器数据源连接池使用达到阈值、线程池使用率高、应用响应时间变长。

**诊断流程:**查看数据源连接池达到最大值,且使用率长时间处于

100%

**影响范围:**联机交易出现响应缓慢甚至出现大量交易超时失败等,大量用户无法登陆,影响对外联机服务

**预计处理时间:**20 分钟

启动依据:监控上有 jdbc 连接池高或 WebContainer 线程池使用率高告警。APP 服务器日志中出现获取数据源连接失败或大量线程挂起信息。应用出现访问缓慢或者访问异常

处理方案:(先收集信息再重启服务):处置二:手工产生 ThreadDump

收集数据源 URL、通知数据库专业。

处置六:收集 TongWeb 数据源连接池 trace

处置一:APP 服务器重启

前提是使用了 TongWeb 的数据库连接池,并且处置六修改后,需在下次出现问题的时候进行日志收集和分析。

应急处置

处置一:APP 服务器重启服务

注:通常 APP 异常需要收集信息进行异常分析,中间件信息收集完成后由中间件通知应用重启。具体操作以应用的应急预案为准,以下步骤仅做参考。

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

处置二:手工产生ThreadDump

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

1、 生成 ThreadDump:

验证方案:

1、 收集 ThreadDump:

处置三:手工产生 HeapDump

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

处置四:收集占用CPU 资源较高的线程

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

处置五:调整APP 服务器 JVM 内存大小

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

1、 验证 JVM 参数是否生效:

处置六:收集TongWeb 数据源连接池 trace

恢复步骤:

使用 TongWeb 应用用户登录目标服务器

1、 开启 Tongweb 数据源连接池 trace:

2、 通过 console 控制台开启数据源连接池 trace:

通过”JDBC 配置”选择对应的连接池,进入编辑页面配置

其中泄露超时时间,可根据实际业务情况设置一个值单位

“秒”

其中泄露回收,开启需要慎重,如果只是要分析是否存在泄露的可能则可不开启。

验证方案:

收集 trace 日志:

处置七:查看占用CPU 高的线程

步骤:

使用 TongWeb 应用用户登录目标服务器

验证方案:

  • 其他
Logo

一站式 AI 云服务平台

更多推荐