CVPR2024：Stronger, Fewer, & Superior: Harnessing Vision Foundation Modelsfor Domain Generalized 。。。

最新推荐文章于 2026-04-10 14:12:47 发布

原创

最新推荐文章于 2026-04-10 14:12:47 发布 · 2.1k 阅读

·

37

·

标签

#深度学习 #人工智能

一、摘要

在本文中，我们首先评估和利用领域背景下的各种视觉基础模型(VFMs)广义语义分割(DGSS)。在利用更强的预训练模型的动机以及更少的可训练参数以获得更高的泛化能力，我们引入了一种鲁棒微调方法，即“Rein”，参数有效地利用VFMs用于DGSS。建立在一组可训练的Token，每个连接到不同的实例中，Rein精确地细化和转发该特性在主干内从每一层映射到下一层。此过程在单个图像中为不同的类别生成不同的细化。通过更少的可训练参数，Rein有效地微调DGSS任务的VFMs，出人意料地超越了全参数微调。在不同环境下进行的大量实验证明了这一点。Rein明显优于最先进的方法。值得注意的是，在固定骨干网络参数中只额外增加1%的可训练参数，Rein在不访问任何真实城市场景数据集的情况下，在Cityscapes数据集上实现了78.4%的mIoU。

个人精简理解：Stronger：如DINOv2，CLIP，MAE等VFMs，接上一个用于DGSS的解码器，如Mask2Former，就可以超过现有的所有SOTA，展现出了VFMs的优越性。

Fewer：现有的一些大模型微调技术可以做到在调整少部分参数的情况下，微调模型的效果，作者对这些技术进行了借鉴，如Lora。

Su

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。