直接在终端输入以下命令,方便查看NCCL日志

export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=enp4s0,此处enp4s0为每台机器的网卡名字,使用ifconfig查看,要是出现多个网卡名字,找到那个右IP地址、网关和掩码的那个名字,这一步是最重要的

然后再训练就可以了

Logo

一站式 AI 云服务平台

更多推荐