报错说明

torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 

报错如图所示

在这里插入图片描述

报错分析

该报错是 torch 和 CUDA 版本不兼容导致。 (一般N卡自带的CUDA版本与最新的torch版本相差较大)

解决方案

1.查看自己的CUDA版本

# 查看自己的显卡驱动和CUDA版本
nvidia-smi

2.查看自己的torch版本

python -c "import torch; print(torch.__version__)"	# 查看pytorch版本
python -c "import torch; print(torch.version.cuda)" # 查看pytorch使用的CUDA版本

3.根据自己需要使用的项目的建议重新配置torch或者CUDA,使版本兼容。

Logo

一站式 AI 云服务平台

更多推荐