一、摘要
在本文中,我们首先评估和利用领域背景下的各种视觉基础模型(VFMs)广义语义分割(DGSS)。在利用更强的预训练模型的动机以及更少的可训练参数以获得更高的泛化能力,我们引入了一种鲁棒微调方法,即“Rein”,参数有效地利用VFMs用于DGSS。建立在一组可训练的Token,每个连接到不同的实例中,Rein精确地细化和转发该特性在主干内从每一层映射到下一层。此过程在单个图像中为不同的类别生成不同的细化。通过更少的可训练参数,Rein有效地微调DGSS任务的VFMs,出人意料地超越了全参数微调。在不同环境下进行的大量实验证明了这一点。Rein明显优于最先进的方法。值得注意的是,在固定骨干网络参数中只额外增加1%的可训练参数,Rein在不访问任何真实城市场景数据集的情况下,在Cityscapes数据集上实现了78.4%的mIoU。
个人精简理解:Stronger:如DINOv2,CLIP,MAE等VFMs,接上一个用于DGSS的解码器,如Mask2Former,就可以超过现有的所有SOTA,展现出了VFMs的优越性。
Fewer:现有的一些大模型微调技术可以做到在调整少部分参数的情况下,微调模型的效果,作者对这些技术进行了借鉴,如Lora。
Su



1781

被折叠的 条评论
为什么被折叠?



