迭代到50之后就停止了

代码在训练到50个epoch之后就停止了

报错是
`Total Loss: 0.733 || Val Loss: 0.695
Epoch 51/100: 0%| | 0/18 [00:00<?, ?it/s<class 'dict'>]Start Train

Process finished with exit code -1073741819 (0xC0000005)`
请问这是什么原因呢？

我看到mobilenet网络中加载预训练的权值参数时是通过‘https://download.pytorch.org/models/mobilenet_v2-b0353104.pth'这个地址，
然后使用
state_dict = load_state_dict_from_url(model_urls['mobilenet_v2'], model_dir='./model_data', progress=progress)
model.load_state_dict(state_dict)
这个代码加载的，
，请问怎么在本地加载从网盘中下载好的权值数据呀？谢谢啦

输入图像对于所有类别的属于可能性的问题

比如说输入img/cat.jpg的时候，预测结果是Class: cat Probability: 0.998，希望可以得到的预测结果是Class: cat Probability: 0.998，dog Probability: 0.002。

#---------------------------------------------------#

获得所属种类

#---------------------------------------------------#
class_name = self.class_names[np.argmax(preds)]
probability = np.max(preds)

我觉得应该是需要修改这块的代码，但是不知道该如何下手...初学者还请多多包涵~
如果能回复我，将不胜感激~~~支持大佬！！！

关于resnet50在不同torchvision下的不同权重问题

https://download.pytorch.org/models/resnet50-19c8e357.pt
https://download.pytorch.org/models/resnet50-0676ba61.pth
我想问下这俩权重为啥不一样，我找到torchvision下的resnet.py文件。发现他们定义的网络结构一样的。为啥加载模型会不一样呢。
要是加载不对应的权重会报错：
RuntimeError: Error(s) in loading state_dict for ResNet:
size mismatch for layer1.0.downsample.1.weight: copying a param with shape torch.Size([256, 64, 1, 1]) from checkpoint, the shape in current model is torch.Size([256]).
size mismatch for layer2.0.downsample.1.weight: copying a param with shape torch.Size([512, 256, 1, 1]) from checkpoint, the shape in current model is torch.Size([512]).
size mismatch for layer3.0.downsample.1.weight: copying a param with shape torch.Size([1024, 512, 1, 1]) from checkpoint, the shape in current model is torch.Size([1024]).
size mismatch for layer4.0.downsample.1.weight: copying a param with shape torch.Size([2048, 1024, 1, 1]) from checkpoint, the shape in current model is torch.Size([2048]).
求大佬指导。

好像Dataloader里面并没有用letterbox的操作？

个人感觉是不是应该把letterbox加到Dataloader里，或者将其从predict或其他validation代码中移除，以保证训练和验证图片的一致性？

tensorflow.python.framework.errors_impl.FailedPreconditionError: logs\loss_2024_05_06_19_31_43 is not a directory

关于DataGenerator的问题

您好，我想问一下，这下面的两个参数True和False是代表DataGenerator类中的ramdom的值吗？
也就是autoagument一直是默认值True

您好！我最近使用您更新后的代码，发现训练模型的时间变慢了，这是什么原因啊？期待您的回复，谢谢！

为什么验证精度比训练精度高？

为什么验证精度比训练精度高？高的太离谱了

数据预处理方式

代码中的数据预处理是resie到 [224,224]，之后CenterCrop [224,244]，CenterCrop前后图像大小一样是不是意味着CenterCrop不起作用？我看很多其他仓库的代码是训练时候直接Randcrop到 [224,224]，而在预测或评估时先resize到 [256,256] 再CenterCrop到 [224,224]，想请问一下这个问题。
另外，仓库中的归一化方式是除以127.5，之后-1，把所有像素点归纳到 [-1,1]之间，而其他仓库是除以255，之后用imagenet1K数据集的mean和std作normalize，官方论文中是用哪种方式呢？

在vgg主干网络加入其他模块后，反向传播功能失效

学习率一直是0.0001，不会变动，这个有办法解决嘛

佬，我用你的vgg11网络进行分类，为什么训练集比验证集loss要高呢？而且我对vgg11轻量化后，训练集loss也高

第一张为vgg11，第二张为轻量化后的vgg11

您好，请问一下是否可以给出更多的CNN，期待您的回复！

您好，对于训练好的模型可以增量训练吗？再加类别，加样本训练可以吗？

运行eval.py出现错误：ValueError: Axis limits cannot be NaN or Inf

不知道怎么解决，不知道哪里出了问题。具体的提示是：
RuntimeWarning: invalid value encountered in true_divide
F1 = (2 * Recall * Precision) / (Recall + Precision)
Save Recall out to metrics_out\Recall.png
Save Precision out to metrics_out\Precision.png
Traceback (most recent call last):
File "F:\ImgClassification\eval.py", line 58, in
top1, top5, Recall, Precision, F1= evaluteTop1_5(classfication, lines, metrics_out_path)

验证集比训练集loss差好多

SSD网络改了后面的网络，训练了100epochs,map只有61.9%正常吗，训练前用原始权重有79.3%

在vgg16里打开batchnorm后训练出现问题

出现这个问题，权重已经通过代码处理，但还是有问题

Vit预训练权重

出错信息：

There is no pretrained model for vit_b_16
Traceback (most recent call last):
  File "train.py", line 225, in <module>
    model = get_model_from_name[backbone](input_shape = input_shape, num_classes = num_classes, pretrained = pretrained)
  File "/data/xly/hhs/classification-pytorch-1/nets/vision_transformer.py", line 223, in vit_b_16
    model.load_state_dict(torch.load("/data/xly/hhs/classification-pytorch-1/model_data/vit-patch_16.pth"))
  File "/root/anaconda3/envs/torch38/lib/python3.8/site-packages/torch/serialization.py", line 595, in load
    return _legacy_load(opened_file, map_location, pickle_module, **pickle_load_args)
  File "/root/anaconda3/envs/torch38/lib/python3.8/site-packages/torch/serialization.py", line 749, in _legacy_load
    return legacy_load(f)
  File "/root/anaconda3/envs/torch38/lib/python3.8/site-packages/torch/serialization.py", line 674, in legacy_load
    tar.extract('storages', path=tmpdir)
  File "/root/anaconda3/envs/torch38/lib/python3.8/tarfile.py", line 2272, in extract
    tarinfo = self._get_extract_tarinfo(member, filter_function, path)
  File "/root/anaconda3/envs/torch38/lib/python3.8/tarfile.py", line 2279, in _get_extract_tarinfo
    tarinfo = self.getmember(member)
  File "/root/anaconda3/envs/torch38/lib/python3.8/tarfile.py", line 1962, in getmember
    raise KeyError("filename %r not found" % name)
KeyError: "filename 'storages' not found"

权重文件：

环境：
Ubuntu 20.04
其余配置和项目中的requirements一样

就是权重文件损坏了吗？

百度云链接🔗无法访问

想要数据集！

【错误解决方案】ModuleNotFoundError: No module named ‘torchvision.models.utils‘

torchvision版本过高会使得使用此程序时出现此问题，可以将将“from torchvision.models.utils import load_state_dict_from_url”改为：“from torch.hub import load_state_dict_from_url”

你好，这个任务修改之后可以完成多标签多类别分类的任务吗

如题

导师分类的pytorch这个版本是没有tensorboard的log吗，如果想再tensorboard记录学习率和acc曲线的话，需要在哪里添加代码的

ZeroDivisionError: float divmod()被除数为0的问题

泡导，我没有改过您的代码，运行的时候却出现了这个问题，导致没法完成训练，求指教。
显卡：3050ti
环境：全部按您的教程配置的pytorch1.71、torchvision0.8.2

您好，我用的mobilenetv2 训练分类模型，准确率收敛速度极慢，我应该如何优化

为什么dataloader中没有标签的onehot编码？

请问您公开的模型文件是官方公开的模型吗？

您公开的模型文件.pth是哪个数据集上训练的？

您好，请问dataloader中对验证集数据先resize再center_crop的目的是什么呢？

代码段如下：
if not random:
image = self.resize(image)
image = self.center_crop(image)
return image

请问验证集图片预处理的目的是什么，验证集的结果是否影响了训练集的超参数更新？

     谢谢！

Google Drive预训练权重

百度云盘没会员太慢了，求个Google Drive

请问在训练时使用数据增强策略了吗？

模型参数大小的问题

您好，训练出来的ResNet50 的pth大小为92161kb；
但是作者原文中写的25.6M，这是什么原因呀？

大佬，我在Ubuntu上跑训练的时候报这个错误一直找不到解决方法能帮我看看吗

Traceback (most recent call last): File "train.py", line 452, in
fit_one_epoch(model_train, model, loss_history, optimizer, epoch, epoch_step, epoch_step_val, gen, gen_val, UnFreeze_Epoch, Cuda, fp16, save_period, save_dir, local_rank)
File "/mnt/class_master/utils/utils_fit.py", line 116, in fit_one_epoch if (math.floor(epoch) + 1) % save_period == 0 or math.floor(epoch)+1 == Epoch:
TypeError: unsupported operand type(s) for %: 'int' and 'str'

BUS ERROR

你好，在服务器上运行代码中出现bus error，请问是什么错误

bubbliiiing / classification-pytorch Goto Github PK

classification-pytorch's Issues

获得所属种类

Recommend Projects

Recommend Topics

Recommend Org