开源组件 运维思路
针对不同组件,比较关注以下事项:1. 集群信息集群名称、节点 IP 列表、客户端连接方式(直接连接还是通过 hippo 或是 nginx)、对接业务线、对接开发负责人、重要级别、异常影响范围、特殊情况说明、是否有单点2. 部署拓扑3. 监控告警监控面板指标告警异常处理历史故障4. 管控操作如定时管理、数据清理、重启等不同定时任务5. 代码库......
·
针对不同组件,比较关注以下事项:
1. 集群信息
集群名称、节点 IP 列表、客户端连接方式(直接连接还是通过 hippo 或是 nginx)、对接业务线、对接开发负责人、重要级别、异常影响范围、特殊情况说明、是否有单点
2. 部署拓扑
3. 监控告警
监控面板
指标告警
异常处理
历史故障
4. 管控操作
如定时管理、数据清理、重启等不同定时任务
5. 代码库
是否有源码改动
----------
XXX运维事项
-
集群列表信息
-
监控告警
2.1 告警梳理
2.2 监控面板 -
运维操作
重启、扩容、问题响应 -
组件相关的 web 页面、管理平台、乐信云操作
-
自动定时任务
-
人工巡检项
-
运营类日报、周报
-
gitlab 代码
# 组件运维思路
1. 信息梳理
x. 集群列表
x. 定时任务
x. 管理页面
x. 代码
x. 数据流
x. 控制流
x. 对接人(产品、研发)
2. 监控
x. 探活(端口存活,服务存活)【1】
x. 基础监控 node_exporter
x. 组件监控 rocketmq_exporter【2】
x. TPS 监控
x. 监控面板
x. 告警项
3. 清理
x. 死信队列【done】
x. retry 队列【done】
x. 没有使用的队列【不做】
4 扩容
x. 升级硬件
x. 升级版本
5. 集群管控
x. 重启
x. 清理
x. 扩容
x. 上线新集群
更多推荐




所有评论(0)