【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection

最新推荐文章于 2025-05-04 12:38:12 发布

原创最新推荐文章于 2025-05-04 12:38:12 发布 · 1.3k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#深度学习 #计算机视觉 #人工智能

本文介绍了一种结合EfficientNet和视觉变压器的视频深度虚假检测方法。通过两种网络模型EfficientViT和ConvolutionalCrossViT提取并分析人脸特征，以判断视频中人脸的真实性。实验在FaceForensics++等数据集上进行。

* Combining `EfficientNet` and Vision Transformers for Video `Deepfake` Detection

题目：结合高效网络和视觉变压器进行视频深度虚假检测（结合）

作者：Davide Coccomini, Nicola Messina, Claudio Gennaro, and Fabrizio Falchi

ISTI-CNR, via G. Moruzzi 1, 56124, Pisa, Italy（意大利国家研究委员会）

发表期刊：ICIAP（图像分析和处理国际会议）

将各种类型的视觉变换器与卷积EfficientNet B0相结合，提取人脸特征。

不使用蒸馏法，也不使用集成法。而是一种基于简单投票的方案，用于处理同一视频镜头中的多个不同人脸。

主要创新：在视频的时空上判断各个人脸

用人脸检测器MTCNN对人脸进行预提取；

再用 the Efficient ViT and the Convolutional Cross ViT两个网络训练。

两分支组成：the Efficient ViT and the multi-scale Transformer architecture

即 S分支处理较小的斑块，L分支处理较大的斑块，以获得更宽的感受野。
使用两个不同的CNN主干作为特征提取器。

（只使用其一）

1.EfficientNet B0，它为S分支处理7×7图像补丁，为L分支处理54×54图像补丁。

2.Wodajo等人的CNN，它为S分支处理7×7图像补丁，为L分支处理64×64图像补丁。
Linear Proj:视觉变换器处理特征。
Transformer Encoder:解码器解码。
Cross-Attention:两条分支交互，生成独立的S-CLS,L-CLS。
MLP Head:分类图片。