按照源代码来跑,报错:AttributeError: 'DataParallel' object has no attribute 'train_model'。定位到问题应该是运行 mian.py 中 model = torch.nn.DataParallel(model, device_ids=list(range(torch.cuda.device_count())) 后,model被封装成DataParallel类中的module。故擅自添加了 model = model.module 后不再报错。
但是用了DataParallel貌似仍然是单卡运行(4块可用)。请问该如何解决?
单卡跑的时候提示 CUDA out of memory,batch_size用了默认的8,单个GPU内存10G,调整为3左右才可顺利跑起来。