APC model

Question

你好，请问您提供的apc模型的权重是在中文语料上预训练的嘛？

YuanxunLu · Answer

是的

lovekittynine · Answer

hello， 请问在训练audio2mouth的时候，嘴部关键点需要做特殊的对齐操作吗？比如makeitTalk中的事先配准，或者其他方法中的facealignment?

YuanxunLu · Answer

lovekittynine · Answer

你好，有尝试过在中文数据集上训练吗？我自己尝试在中文数据集上训练，但是效果不好，尝试过训练makeittalk中的speech content分支，也就是audio2lan

YuanxunLu · Answer

不好意思，没有做过相关测试，也没有训过makeittalk。landmark的归一化肯定是重要的，学习的对象需要在同一空间内。
中文数据集可以去看看common v

lovekittynine · Answer

非常感谢，这些数据集好像只有音频，但是没有视频。有包含视频的相关数据集吗？

YuanxunLu · Answer

不好意思，这方面没有了解过。

lovekittynine · Answer

作者你好，看了一下细节部分，论文提到视频抽帧是60fps, 音频计算mfcc特征的时候帧长是1/60， 但是帧移是1/120，这样子mfcc序列长度会是视频帧数序列的2倍，

YuanxunLu · Answer

我没有用mfcc，用的是mel谱作为浅层feature，送入APC得到深度feature。
两比一的长度很简单，用两个feature生成一帧就可以了。

lovekittynine · Answer

ok，所以实际上是mfcc特征输入到apc模型，最后得到的预测帧数和视频序列长度保持了一致。这么设计提取mfcc特征，是考虑到了apc模型的特性嘛？

YuanxunLu · Answer

没有mfcc，APC是深度语音特征的一种，他用的梅尔谱作为浅层特征。当然，你也可以用从raw wave得到的深度特征，比如wav2vec

lovekittynine · Answer

你好，在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么？

Comedian1926 · Answer

你好，在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么？

tujie-jiangye · Answer

我的关键点是在归一化的三维人脸空间做的（类似makeittalk的配准）
audio特征影响还是很大的，mfcc泛化

APC model about livespeechportraits HOT 14 CLOSED