发现报错:RuntimeError:NCCLerrorin:/pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784,unhandledsystemerror编辑想在linux上跑跑mmclassification中的resnet网络,但是报错,查阅资料后发现,第二个错误是由于第一个错误产生的。那么现在就要解决第一个报错。第一个报错查阅了一堆资料后,发现是GPU使用数量的原因,但我电脑只有一个GPU,修改了配置文件后,依旧这样报错。有的博主是由于文件中有中文字符,我仔细检查后没有发现。最后才发现,之前用的训练命令如下:sh./tools/dist_
发现报错:RuntimeError:NCCLerrorin:/pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784,unhandledsystemerror编辑想在linux上跑跑mmclassification中的resnet网络,但是报错,查阅资料后发现,第二个错误是由于第一个错误产生的。那么现在就要解决第一个报错。第一个报错查阅了一堆资料后,发现是GPU使用数量的原因,但我电脑只有一个GPU,修改了配置文件后,依旧这样报错。有的博主是由于文件中有中文字符,我仔细检查后没有发现。最后才发现,之前用的训练命令如下:sh./tools/dist_