文章目录
Combining EfficientNet and Vision Transformers for Video Deepfake Detection
会议/期刊:ICIAP 2022
作者:

code:https://tinyurl.com/cnn-vit-dfd.
key points
将各种类型的视觉变压器与卷积effentnet B0结合起来作为特征提取器
提出了一个基于简单投票方案的直接推理程序,用于处理同一视频镜头中的多个面孔。
使用最先进的人脸检测器MTCNN预提取人脸[39]。
我们提出了两种混合卷积变压器架构,它们将预先提取的人脸作为输入,并输出人脸被操纵的概率。本文提出的两个体系结构以一种监督的方式进行训练,以区分真实的和真实的伪造案例。通过将检测任务框架化为二值分类问题来解决检测任务。
提出了高效ViT和卷积交叉ViT
订阅专栏 解锁全文

1318

被折叠的 条评论
为什么被折叠?



