运维值班生存手册：深夜告警怎么处理不背锅？

运维值班生存手册：深夜告警怎么处理不背锅

yangchengnanzhan

775人浏览 · 2025-03-05 23:07:18

yangchengnanzhan · 2025-03-05 23:07:18 发布

凌晨2点，某平台服务器CPU飙升至99%，值班新手慌忙重启导致订单服务雪崩——这场价值300万的故障本可避免。本文总结20+行业事故案例，提炼出一套「黄金4步法」，让你在深夜告警中从容应对，告别背锅。

一、接警阶段：5分钟快速定位法

1. 告警分级速查表

告警级别	颜色	响应要求	示例场景
P0	🔴红色	立即处理并上报	核心数据库宕机
P1	🟠橙色	15分钟内介入	磁盘使用率超90%
P2	🟢绿色	次日上班处理	单台从库同步延迟

2. 黄金第一问
✅ 必须确认：

# 网络连通性  
ping <IP>  
traceroute <IP>  

# 服务存活状态  
systemctl status nginx  
curl -I http://localhost:80

3. 避坑口诀
⚠️ 三不原则：

• 不盲目重启服务
• 不随意删除日志
• 不擅自修改配置

二、处置阶段：安全操作清单

1. 高危操作防护机制

# 必须添加的alias保护  
alias rm='rm -i'  
alias chmod='echo "[WARNING] 禁止直接chmod！请联系资深工程师"'

2. 变更三板斧

1. 测试环境验证（至少1次）  
2. 灰度发布（先10%流量）  
3. 回滚方案预置（写在记事本再操作）

3. 止血神操作TOP3

• CPU爆满：

top -c -o %CPU  # 定位进程  
perf top -p <PID>  # 分析热点函数

• 磁盘写满：

lsof +L1  # 查找未释放文件  
echo "" > /var/log/bigfile.log  # 安全清空（勿用rm!）

• 内存泄漏：

jmap -histo:live <PID>  # Java应用  
pmap -x <PID> | sort -n -k3  # 物理内存分布

三、沟通阶段：标准话术模板

1. 向上汇报结构

【紧急程度】P0/P1/P2  
【影响范围】  
- 业务影响：订单支付失败率上升50%  
- 系统影响：MySQL主库不可用  
【当前进展】  
- 已定位：主从同步线程中断  
- 待解决：需人工修复binlog偏移量  
【所需支持】申请DBA团队协同处理

2. 跨部门协作指南
✅ 正确姿势：

1. @DBA-张三 请协助查看主从状态（附show slave status截图）  
2. @开发-李四 请确认最近发布的订单服务变更记录  
3. @网络-王五 请检查IDC出口流量波动

❌ 错误示范：
"服务器挂了！所有人快来！"（引发恐慌）

四、复盘阶段：自我保护铁律

1. 证据链保全清单

# 必须保存的日志  
tar -czvf evidence_$(date +%F).tar.gz \  
/var/log/messages \  
/var/log/nginx/access.log \  
/opt/app/logs/*.log  

# 操作录像回溯  
script -t 2> timing.log -a output.session

2. 复盘报告避雷指南
✅ 正确归因：
"因磁盘inode耗尽导致日志写入失败（附df -i截图）"
❌ 错误写法：
"可能是磁盘问题，不确定具体原因"

3. 值班必备工具包