用v100单机多卡训练，都跑到同一张卡上了 #2010

dahu1 · 2023-09-13T16:36:12Z

使用v100来多卡训练，发现分配gpu都分配到同一张卡了，这个要如何处理，之前使用2080和3090训练，都没遇到过这种情况。

机器信息：
镜像 nvidia/cuda:11.7.1-devel-ubuntu20.04
python3.8
torch==1.13.0+cu117
torchaudio==0.13.0

robin1001 · 2023-09-14T01:34:23Z

@yuekaizhang 碰到过吗？

dahu1 · 2023-09-14T01:49:20Z

补充一下git commit : 9804821

MrSupW · 2023-09-20T08:33:59Z

@dahu1 你好，请问这个问题有解决方式吗？我今天也遇到这个情况了。

ziyu123 · 2023-09-20T08:44:33Z

在 model.cuda() 之前添加 torch.cuda.set_device(args.rank)，我的已经解决了

MrSupW · 2023-09-20T08:50:03Z

@ziyu123 感谢！我这里也正常了

dahu1 · 2023-09-20T09:21:46Z

在 model.cuda() 之前添加 torch.cuda.set_device(args.rank)，我的已经解决了

感谢

robin1001 · 2023-09-20T14:39:40Z

或者可以拉最新的代码，使用 torchrun 跑并行训练，见 https://github.com/wenet-e2e/wenet/pull/2020。

dahu1 closed this as completed Sep 20, 2023

Provide feedback