注意:
按照deepspeed官方文档:不能通过CUDA_VISIBLE_DEVICES指定,需要使用deepspeed --include localhost:12,13才可以

 raise ValueError(f"No slot '{slot}' specified on host '{hostname}'")         

更改前使用

export CUDA_VISIBLE_DEVICES=13,14

更改后的文件内容

deepspeed  --include localhost:13,14 train.py --deepspeed_config=ds_config.json -p 2 --steps=200

更详细的可以再参考链接 https://blog.csdn.net/weixin_43013480/article/details/135674034

Logo

一站式 AI 云服务平台

更多推荐