预训练模型使用的数据集

Question

您好！
我发现train_baseline.py中使用了完整数据集来进行预训练，但这个和实验设置是不相符的。请问这个有合理的解释或实验证明吗，如果使用其他数据来进行

Winter-Jon · Answer

哦，我明白了，这篇文章的setting是训练时可以采用完整数据，仅在测试时模态是不完整的

aixuanjiayi · Answer

我想问一下，用bash s/CAP_utt_fusion.sh AVL [num_of_expr] [GPU_index]这个命令训练好的模型和train_ba

Winter-Jon · Answer

CAP_utt_fusion.sh命令应该就是运行带命令行参数的train_baseline.py，直接运行train_baseline.py是缺参数的，最后出来的是论文里

aixuanjiayi · Answer

第一个命令bash s/CAP_utt_fusion.sh AVL出来的不是全部数据训练出来的模型嘛，论文里的Pretrained Modality Encod

Winter-Jon · Answer

论文中训练采用的都是完全模态。
第一阶段，用CAP_utt_fusion.sh进行预训练的时候用了完整的数据集，这一点可以在--dataset_mode=multi

aixuanjiayi · Answer

MMIN is trained with all six possible missing modality conditions (Table 1).但是论文中写到，MM

Winter-Jon · Answer

他对缺失模态的定义是用完全模态数据拆分成的六对缺失模态对，而这六对缺失模态对全拿去训练了

aixuanjiayi · Answer

那你的意思是说，这种用完全模态数据分成的六对缺失模态对去训练的数据也叫完全模态吗？

Winter-Jon · Answer

从setting上说，三种模态都是available的，所以训练时是完全模态，但在测试的时候确实用的缺失模态。
假如真有模态缺失，只有两种模态的话，是无法生成模态对

aixuanjiayi · Answer

嗯嗯，是这个理。set_name in ['trn', 'val', 'tst']请问这三个都是什么意思啊，没有看到呢，谢谢！

Winter-Jon · Answer

这些就是训练集，验证集和测试集

aixuanjiayi · Answer

我还是没有懂，他这篇的最主要的点，就是用两个模态的数据想象出缺失的模态数据，这里具体是怎么实现的呢，万分感谢！

Winter-Jon · Answer

这个可以去参考一下cycleGAN。以一对缺失模态对(v,l)和(a)为例，(v,l)生成a'，a'需要接近a，再用a‘往回生成(v',l')，(v',l')需要接近原来的

aixuanjiayi · Answer

好的，谢谢！

aixuanjiayi · Answer

关于这篇文章对数据集数据的处理，他是三种数据分别用LSTMEncoder和TextCNN处理成相同向量的吗，./preprocess里的代码也是处理数据的嘛，没有用过这三种

Winter-Jon · Answer

./preprocess是数据预处理，后面的LSTMEncoder和TextCNN相当于Feature Encoder

aixuanjiayi · Answer

哦哦哦，好的，谢谢！

aixuanjiayi · Answer

您好，请问您看懂这个数据集特征提取了吗，这个{}_int2name.npy和{}_label.npy这个是作者自己手动设置好的吗，还有训练集、验证集和测试集的划分，这里的标

aixuanjiayi · Answer

您好，说起这个训练用的都是完整模态的情况，在创建缺失多模态数据集的时候是写着训练集时是完整模态，但是MMIN模型训练的时候还是用的缺失模态呀，加载数据的时候就写着训练时用了

Winter-Jon · Answer

您好，抱歉现在回复，他训练时用的缺失索引包括了所有的组合，包括(a,v), (a,l), (v,l)等等，而不是仅用其中一对

htqh06 · Answer

您好，请问您知道怎么跑preprocess文件夹里的代码对数据集预处理吗，看read.me里没说的很清楚

预训练模型使用的数据集 about mmin HOT 21 CLOSED