BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)

原创已于 2025-05-22 11:36:40 修改 · 635 阅读

·

4

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#bert #人工智能 #深度学习

于 2025-02-16 22:20:18 首次发布

Multimodal Deep Learning 专栏收录该内容

14 篇文章

订阅专栏

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

该Paper主要贡献如下：

•提出masked image modeling(MIM)任务并以自监督方式预训练Vision Transformer，并从变分自编码器视角对其进行理论解释。

•预训练BEiT，并应用到下游任务图像分类和语义分割中（下游任务数据集中微调BEiT)。

•提出自监督BEiT的self-attention机制可以学习区分semantic regions（语义区域）和object boundaries（对象边界），即使是无标注数据。

BEIT v1总结

BEiT v1是一个两阶段的算法，它首先通过一个dVAE将图像映射成离散的视觉视觉标志（Visual Token），然后再通过视觉Transformer学习带掩码的图像Patch到视觉标志的映射。BEiT v1这么做的目的是将图像映射到一个离散的语义空间，然后模型通过学习每个掩码Patch到这个离散空间的映射来完成预训练。但是BEiT v1并未对dVAE学到的这个语义空间进行深入的探讨和优化，这也大大限制了BEiT v1的可解释性和使用空间。

为了提升BEiT v1的效果，BEiT v2做了如下改进。

•提出了Vector-Quantized Knowledge Distillation （VQ-KD）方法来对图像进行编码，它将原始图像作为输入，使用另外一个模型作为教师系统（Teacher）来引导视觉标志模型的训练。VQ-KD在这里重建的是教师系统编码的特征而非原始像素。

•在通过VQ-KD得到图像的视觉标志之后，我们使用这个视觉标志作为预训练模型的训练目标。不同的是BEiT v2加入了[CLS]符号来建模图像的全局信息。

BEIT V2总结

在本文中，作者提出了向量量化知识蒸馏（VQ-KD）来训练视觉Transformer预训练的视觉标记器。 VQ-KD 离散化连续语义空间，为masked图像建模提供监督，而不是依赖图像像素。语义视觉标记器极大地改进了 BEIT 预训练并显着提高了下游任务的传输性能。此外，引入了 CLS token预训练机制，以明确鼓励模型生成全局图像表示，缩小补丁级预训练和图像级表示聚合之间的差距。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Conn_w 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。