给运维搭一个日志异常摘要+初步定位助手
我们组就两个运维,半夜告警一响,第一件事永远是爬起来翻日志。翻到眼花,才能定位到底是哪个服务抽风。干了几年,我实在受不了了,想搭个小助手帮我先看一眼。
关键是我不太会写代码,Python能看懂改不动那种。所以一开始没敢想。后来发现现在有那种零代码就能配AI小助手的平台,拖一拖配一配就成,我就试了试。下面是我搭这个助手的完整步骤,给同样不会编程的运维同行参考。
想清楚它要干啥
我没指望它直接修问题,只要它能干两件事就够本:
-
把一大坨日志里的异常行揪出来,按严重程度排个序;
-
给一句人话的初步判断,比如"看着像数据库连接池满了"。
定位到这一步,我就能直奔重点,不用从头翻几千行。
第一步:把日志喂进去
平台里建一个新的智能体,选了能处理文本的那档。输入就配一个文本框,我把日志片段贴进去。
这里有个坑我踩过:一开始我想把整个日志文件几万行一次性塞进去,结果超长了直接被截断,后半截它根本没看见。后来改成只贴报错时间点前后各两百行,又准又快。日志这东西,离案发现场越近越有用,远处全是噪音。
第二步:写提示词,这步最关键
我给它的提示词大概长这样:
你是一个资深运维。我会给你一段服务器日志。
请你:
1. 找出所有 ERROR 和 WARN 级别的行,按时间排列;
2. 判断哪几条最可能是根因,而不是被连累的下游报错;
3. 用一句话给出最可能的故障方向(如:内存溢出/连接超时/磁盘满/依赖服务挂);
4. 如果证据不足,就说"信息不够,建议补充XX日志",不要硬猜。
第3条和第4条是我反复调出来的。不加第4条,它特爱不懂装懂,明明信息不够也硬给你一个结论,反而误导。让它学会说"我不确定",比让它显得聪明重要多了。
第三步:挂一个时间工具(可选)
我还给它接了个能查当前时间的小工具,这样它能算出"这个异常是5分钟前开始密集出现的",对判断是不是新故障有用。配工具也是在界面上点一下挂上去,没写代码。
实战跑了两周的感受
上周三凌晨两点四十,订单服务告警。我把日志片段贴进去,它八秒给我吐回来:一堆 Connection timed out,然后一句"下游支付网关疑似无响应,建议先确认支付网关健康状态"。
我直接去看支付网关,果然挂了。从告警到定位方向,原来得我自己翻十几分钟,那天三分钟搞定。
说点不好的:它只干"初筛"这一层杂活。真正的根因还得人去确认,它给的方向偶尔也跑偏——有次把一个无关的 WARN 当成了根因。所以我从没让它自动执行任何操作,它只负责"指个方向",决定权在我。
但就这一层,已经帮我把半夜的脑子从"一片混沌"拉到"有个抓手"了。值。
关键词:日志分析、异常定位、运维自动化、AIOps、零代码搭建AI助手
(中间的大模型我用的讯飞MaaS,直接调它现成的模型API,没在自己服务器上部署模型,省得再维护一套GPU。)
更多推荐


所有评论(0)