1、问题发生的原因

我每次遇到这个问题都是因为我手动或Ubuntu系统自动升级了内核,我一般是用了sudo apt update和sudo apt upgrade命令。结果升级内核不完整,导致nvidia-smi报错。如果您和我一样,是因为升级内核后发现这个问题,而升级前是正常的可以参考这篇文章。

2、解决方案

话不多说,直接上解决方案。

这个问题发生的原因就是内核升级不完整,有些没安装好。
内核主要有4部分,分别是:

linux-headers-6.*.*-**-generic
linux-image-6.*.*-**-generic
linux-modules-6.*.*-**-generic
linux-modules-extra-6.*.*-**-generic

*号为对应的版本

首先用 uname -r 命令,查看当前内核版本,以我的为例,是6.5.0-25-generic

然后我们可以用以下命令查看相关的部分是否安装

sudo dpkg --list | grep linux-image
sudo dpkg --list | grep linux-headers
sudo dpkg --list | grep linux-modules

看一下,对应内核版本的前面是不是ii,如果不是ii或者没显示,那说明没安装好。

那么把没安装好的安装一下,记得修改相应的版本号:

sudo apt-get install linux-headers-6.5.0-25-generic
sudo apt-get install linux-image-6.5.0-25-generic
sudo apt-get install linux-modules-6.5.0-25-generic
sudo apt-get install linux-modules-extra-6.5.0-25-generic

然后重启

sudo reboot

重启完,运行nvidia-smi命令,发现就正常啦,问题解决!

Logo

一站式 AI 云服务平台

更多推荐