运维值班生存手册:深夜告警怎么处理不背锅?
运维值班生存手册:深夜告警怎么处理不背锅
·
凌晨2点,某平台服务器CPU飙升至99%,值班新手慌忙重启导致订单服务雪崩——这场价值300万的故障本可避免。本文总结20+行业事故案例,提炼出一套「黄金4步法」,让你在深夜告警中从容应对,告别背锅。
一、接警阶段:5分钟快速定位法
1. 告警分级速查表
| 告警级别 | 颜色 | 响应要求 | 示例场景 |
| P0 | 🔴红色 | 立即处理并上报 | 核心数据库宕机 |
| P1 | 🟠橙色 | 15分钟内介入 | 磁盘使用率超90% |
| P2 | 🟢绿色 | 次日上班处理 | 单台从库同步延迟 |
2. 黄金第一问
✅ 必须确认:
# 网络连通性
ping <IP>
traceroute <IP>
# 服务存活状态
systemctl status nginx
curl -I http://localhost:80
3. 避坑口诀
⚠️ 三不原则:
-
• 不盲目重启服务
-
• 不随意删除日志
-
• 不擅自修改配置
二、处置阶段:安全操作清单
1. 高危操作防护机制
# 必须添加的alias保护
alias rm='rm -i'
alias chmod='echo "[WARNING] 禁止直接chmod!请联系资深工程师"'
2. 变更三板斧
1. 测试环境验证(至少1次)
2. 灰度发布(先10%流量)
3. 回滚方案预置(写在记事本再操作)
3. 止血神操作TOP3
-
• CPU爆满:
top -c -o %CPU # 定位进程 perf top -p <PID> # 分析热点函数 -
• 磁盘写满:
lsof +L1 # 查找未释放文件 echo "" > /var/log/bigfile.log # 安全清空(勿用rm!) -
• 内存泄漏:
jmap -histo:live <PID> # Java应用 pmap -x <PID> | sort -n -k3 # 物理内存分布
三、沟通阶段:标准话术模板
1. 向上汇报结构
【紧急程度】P0/P1/P2
【影响范围】
- 业务影响:订单支付失败率上升50%
- 系统影响:MySQL主库不可用
【当前进展】
- 已定位:主从同步线程中断
- 待解决:需人工修复binlog偏移量
【所需支持】申请DBA团队协同处理
2. 跨部门协作指南
✅ 正确姿势:
1. @DBA-张三 请协助查看主从状态(附show slave status截图)
2. @开发-李四 请确认最近发布的订单服务变更记录
3. @网络-王五 请检查IDC出口流量波动
❌ 错误示范:
"服务器挂了!所有人快来!"(引发恐慌)
四、复盘阶段:自我保护铁律
1. 证据链保全清单
# 必须保存的日志
tar -czvf evidence_$(date +%F).tar.gz \
/var/log/messages \
/var/log/nginx/access.log \
/opt/app/logs/*.log
# 操作录像回溯
script -t 2> timing.log -a output.session
2. 复盘报告避雷指南
✅ 正确归因:
"因磁盘inode耗尽导致日志写入失败(附df -i截图)"
❌ 错误写法:
"可能是磁盘问题,不确定具体原因"
3. 值班必备工具包
-
• 硬件检测:Smartmontools(硬盘健康度)
-
• 网络抓包:Tcpdump + Wireshark过滤器模板
-
• 日志分析:预置grep/awk脚本
更多推荐




所有评论(0)