Slurm重启后Drain以及运用update出现slurm_update error: Invalid user id


问题描述

提交文件时出现这样的问题,显示目前集群在排队
在这里插入图片描述

查看目前集群状态

sinfo

在这里插入图片描述

可见此时state是drain,一般让这个State异常注水占用的原因是重启导致的

解决方案

如果直接scontrol update会报错
在这里插入图片描述

要先切换一下root权限才可以update state
RESUME设置适合有正在跑任务的情况

sudo su
scontrol update NodeName=xulab-7920-Tower State=RESUME

接着查看集群状态是否恢复

sinfo

在这里插入图片描述

查看状态转换为idle,再将用户切换为子用户即可使用

Logo

一站式 AI 云服务平台

更多推荐