针对不同组件,比较关注以下事项:

1. 集群信息

集群名称、节点 IP 列表、客户端连接方式(直接连接还是通过 hippo 或是 nginx)、对接业务线、对接开发负责人、重要级别、异常影响范围、特殊情况说明、是否有单点

2. 部署拓扑

3. 监控告警

监控面板
指标告警
异常处理
历史故障

4. 管控操作

如定时管理、数据清理、重启等不同定时任务

5. 代码库

是否有源码改动

----------

XXX运维事项

  1. 集群列表信息

  2. 监控告警
    2.1 告警梳理
    2.2 监控面板

  3. 运维操作
    重启、扩容、问题响应

  4. 组件相关的 web 页面、管理平台、乐信云操作

  5. 自动定时任务

  6. 人工巡检项

  7. 运营类日报、周报

  8. gitlab 代码

# 组件运维思路

1. 信息梳理
x. 集群列表
x. 定时任务
x. 管理页面
x. 代码
x. 数据流
x. 控制流
x. 对接人(产品、研发)

2. 监控
x. 探活(端口存活,服务存活)【1】
x. 基础监控 node_exporter
x. 组件监控 rocketmq_exporter【2】
x. TPS 监控
x. 监控面板
x. 告警项

3. 清理
x. 死信队列【done】
x. retry 队列【done】
x. 没有使用的队列【不做】

4 扩容
x. 升级硬件
x. 升级版本

5. 集群管控
x. 重启
x. 清理
x. 扩容
x. 上线新集群

Logo

一站式 AI 云服务平台

更多推荐