【Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representa】

最新推荐文章于 2025-07-30 15:19:09 发布

原创

最新推荐文章于 2025-07-30 15:19:09 发布 · 1.4k 阅读

标签

#人工智能 #深度学习 #计算机视觉

文章提出了一种名为掩码视频蒸馏(MVD)的方法，用于视频表示学习。MVD通过两阶段掩码特征建模，利用预训练的图像和视频模型作为教师，提供高级特征目标，从而学习更好的视频表示。发现不同教师在不同视频任务中产生不同属性的表示，图像教师强化空间信息，视频教师强调时间动态。通过时空协同教学策略，MVD在多个视频识别基准上展现出优于现有方法的性能。

Abstract

得益于掩码视觉建模，自监督视频表示学习取得了显著进展。然而，现有的方法侧重于从头开始通过重建低级特征(如原始像素RGB值)来学习表示。在本文中，我们提出了一种简单而有效的用于视频表示学习的两阶段掩码特征建模框架——掩码视频蒸馏(MVD):首先，我们通过恢复掩码patch的低级特征来预训练图像(或视频)模型，然后将得到的特征作为目标进行掩码特征建模。对于教师模型的选择，我们观察到视频教师所教的学生在时间重的视频任务上表现更好，而图像教师在空间重的视频任务上转移了更强的空间表征。可视化分析还表明，不同的教师对学生产生不同的学习模式。基于这一观察结果，为了充分利用不同教师的优势，我们设计了一种MVD的时空协同教学方法。具体来说，我们通过掩码特征建模从视频教师和图像教师中蒸馏学生模型。大量的实验结果表明，使用时空协同教学预训练的视频transformer在大量视频数据集上优于使用单个教师蒸馏的模型。与以前的监督或自监督方法相比，我们的带有原始ViT的MVD在几个具有挑战性的视频下游任务上实现了最先进的性能。例如，使用ViT-Large模型，我们的MVD在Kinetics-400和Something-Something-v2上实现了86.4%和76.7%的Top-1准确率，分别比VideoMAE高1.2%和2.4%。当采用更大的ViT-Huge模型时，MVD在Something-Something-v2上达到了77.3%的Top-1精度，在AVA v2.2上达到了41.1的mAP精度。

1. Introduction

对于自监督视觉表示学习，最近的掩码图像建模(MIM)方法，如MAE[32]、BEiT[2]和PeCo[16]在各种视觉下游任务上使用视觉transformer[18]取得了令人满意的结果。这种预训练范式也适用于视频领域，与几个视频下游任务的监督预训练相比，它明显提高了视频transformer。代表性的掩模视频建模(MVM)作品有BEVT[69]、VideoMAE[63]和ST-MAE[22]。
继MAE[32]和BEiT[2]之后，现有的掩码视频建模方法[22,63,69]通过重建低级特征(如原始像素值或低级VQVAE token)来预训练视频transformer。然而，使用底层特征作为重建目标往往会产生很大的噪声。并且由于视频数据的高冗余性，掩码视频建模容易学习到捷径，从而导致对下游任务的传输性能有限。为了缓解这个问题，掩码视频建模[63]通常使用较大的遮罩比率。
在本文中，我们观察到，通过使用预训练的MIM和MVM模型的高级特征作为掩码预测目标进行掩码特征预测，可以在视频下游任务上获得更好的性能。这可以看作是两阶段的掩码视频建模，第一阶段获得MIM预训练图像模型(即图像教师)或MVM预训练视频模型(即视频教师)，第二阶段通过提供高级特征目标进一步充当学生模型的教师。因此，我们称这种方法为掩码视频蒸馏(MVD)。
更有趣的是，我们发现不同教师在MVD中蒸馏的学生模型在不同的视频下游任务中表现出不同的属性。具体而言，从图像教师模型中蒸馏的学生在主要依赖空间线索的视频任务中表现更好，而从视频教师模型中蒸馏的学生在更需要时间动态的视频下游任务中表现更好。我们认为在第一阶段掩码视频建模的预训练过程中，视频教师已经在其高级特征中学习了时空语境。因此，当采用这种高级表征作为掩码特征建模的预测目标时，有助于鼓励学生模型学习更强的时间动态。类比而言，图像教师提供包含更多空间信息的高级特征作为目标，可以帮助学生模型学习更多有空间意义的表征。我们进一步分析图像教师和视频教师提供的特征目标，并计算跨帧特征相似度。这表明视频教师所提供的特征包含了更多的时间动态。
基于上述观察，为了充分发挥视频教师和图像教师的优势，我们提出了一种简单而有效的MVD时空协同教学策略。具体来说，学生模型的设计是用两种不同的解码器对来自图像教师和视频教师的特征进行重建，从而同时学习到更强的空间表征和时间动态性。实验表明，图像教师和视频教师共同教学的MVD在几个具有挑战性的下游任务上明显优于仅使用单个教师的MVD。
尽管简单，但我们的MVD联合教学非常有效，并在多个标准视频识别基准上实现了非常强大的性能。例如，在kinetics -400和Something-Something-v2数据集上，与没有MVD的基线相比，使用相同大小的教师模型进行400次MVD联合教学，在VIT-B上获得1.2%和2.8%的Top-1精度增益。如果使用更大的教师模型ViT-L，则可以获得更显著的绩效提升(即1.9%，4.0%)。当ViTLarge是目标学生模型时，我们的方法在这两个数据集上可以达到86.4%和76.7%的Top-1准确率，分别比现有最先进的方法VideoMAE[63]高出1.2%和2.4%。当采用更大的ViTHuge模型时，MVD在SomethingSomething-v2上达到了77.3%的Top-1精度，在AVA v2.2上达到了41.1 mAP。
我们的贡献可以总结如下:
**1.**我们发现使用MIM预训练图像模型和MVM预训练视频模型作为教师，为持续的掩码特征预测提供高级特征，可以学习到更好的视频表示。用图像教师和视频教师学习的表征在不同的下游视频数据集上表现出不同的属性。
**2.**我们提出了掩码视频蒸馏和简单而有效的协同教学策略，享受图像和视频教师的协同作用。
**3.**我们在多个标准视频识别基准上展示了强大的性能，超越了没有MVD的基线和之前最先进的方法。

2. Related Work

Vision transformers for video understanding.
对于视频理解任务，对时空信息进行建模是架构设计中最重要的考虑因素。在视频理解的早期工作中，常见的视频架构，如3D CNN[6、21、23、64、66]和具有时间模块的2D CNN[13、42、58、68、78]，都是通过在时间维度上扩展现有的2D CNN模型来设计的。最近，视觉transformer[14,18,44]在几个计算机视觉任务上取得了重大进展。一些作品还将视觉transformer应用于视频领域，与以前基于cnn的架构相比，取得了更好的性能。例如，TimeSformer[4]和ViViT[1]研究了几种时空分解的变体，将普通的ViT架构扩展到视频领域。一些研究[5,52,55]进一步探讨了如何降低时空注意的计算成本。VideoSwin[45]和MViT[19,41]研究了分层结构，并在视频transformer中引入了归纳局域偏置。
Uniformer[39]和Video MobileFormer[70]出于效率考虑，提出将3D cnn与时空自注意机制相结合。为了在视频理解任务中取得令人信服的性能，大多数视频transformer都需要在大规模图像数据集上预训练模型权重。本文对视频transformer的自监督预训练进行了研究，发现预训练策略会显著影响下游性能，且与transformer的结构设计是正交的。

Self-supervised video representation learning.
自监督视频表示学习的早期工作[3,50,72,75]侧重于基于视频的时间结构设计借口任务。最近，对比学习[8,33,40]成为表示学习的新范式，它迫使同一图像样本的不同视图在特征空间中更接近，同时将不同图像的视图推得更远，一些作品[12,24,25,30,31,51,54]通过探索时空增强的有效方法，设计了视频域上的对比学习方法。然而，由于基于对比学习的学习监督应用于全局表示，它不能很好地建模局部关系或学习细粒度的局部表示。

Masked visual modeling.
掩码语言建模[11,43]一直是语言transformer的主要预训练方法之一。随着视觉transformer的成功，掩码视觉建模[2]已被引入到自监督视觉预训练中，并被证明对多模态视觉语言学习也有帮助[17,81]。在BERT[11]预训练之后，BEiT[2]和PeCo[16]通过预测由预训练的VQ-VAE编码的掩码patch的离散视觉标记来预训练ViT。MAE[32]提出了一种用于像素重建的非对称编码器-解码器框架，显著降低了掩码图像建模的计算成本。SimMIM[74]和MaskFeat[73]提出了利用分层ViT来恢复掩码patch的底层特征，如像素或HOG特征。而iBOT[82]、BootMAE[15]和sdAE[9]则采用学生模型的指数移动平均作为在线教师模型，使得目标特征在训练过程中是自举的。在视频领域，一些开创性的工作[22,61,63,69]将掩码图像建模扩展到掩码视频建模。BEVT[69]通过同时使用图像transformer和视频transformer预测离散token，提出了一种双流预训练联合预训练框架。VideoMAE[63]和ST-MAE[22]遵循MAE，以极高的掩码率重建掩码视频patch的像素。与以往大多数掩码视频建模的工作不同，我们的MVD侧重于以高级特征为目标的掩码特征建模，并发现使用图像和视频教师模型的学生模型具有不同的属性并相互补充。

Knowledge distillation.
知识蒸馏[27,34,53]旨在以教师模型的输出为目标，将教师模型的知识转移到学生模型中，对学生模型进行训练。典型的知识蒸馏工作[34,56,57]主要集中在监督学习上，如图像分类。最近，自监督知识蒸馏[20,76,77]也被用于从自监督预训练模型中学习表示。在本文中，我们首次尝试在视频域中使用预训练的图像和视频模型作为掩码特征预测目标。结果表明，自监督MIM预训练模型可以进一步提高掩码视频的预训练效果，并带来显著的性能提升。

3. Method

虽然掩码视频建模在自监督学习方面表现出了良好的性能，但大多数现有方法都以原始像素[63]、HOG[73]和VQVAE令牌[69]等低级特征的形式重建相对低级的信息。在本文中，我们不是重建底层信息，而是在特征层进行掩码视频建模。这是通过两阶段框架MVD来实现的，该框架被优化为预测来自现成的MIM预训练图像模型[32]和MVM预训练视频模型[63]的高级特征，这些模型很容易获得。下面，我们首先在3.1节中概述了掩码特征建模范式，然后在3.2节中介绍了我们提出的MVD。最后，我们将在3.3节中介绍MVD的架构设计。

3.1. The Paradigm of Masked Feature Modeling

掩码特征建模的核心是训练模型来预测掩码输入区域的特征。在本文中，由于其有效性和简单性，我们遵循MAE[32]中的解耦编码器-解码器transformer架构。将输入X(图像 $X_{img}∈R^{H×W ×3}$

最低0.47元/天解锁文章