最近对Re-ID比较感兴趣,读了一篇关于Re-ID的文章,作为自己学习的一个记录,有说的不正确的地方欢迎大家指正,也希望大家一起共同学习共同进步!!!
github:https://github.com/zhangguiwei610/PHA
1. Abstract
挖坑(提出问题):自从这个VIT应用在reid领域,效果显著,比CNN要好,但是呢在High-frequency信息呢CNN的效果是优与VIT的,比如这个衣服的纹理细节,因为这个VIT 的Self-Attention机制会利用low-frequency信息把High-frequency信息“稀释”掉。由于这个纹理细节对于reid来说十分重要,所以不能没有High-frequency,就想西方不能失去耶路撒冷(这句不是作者说的,是我说的~)
填坑(解决问题):提出了一个网络叫做PHA,这个网络有两个好处:
首先,提高High-frequency信息表达能力,其次,防止low-frequency信息把High-frequency信息“稀释”掉。同时呢这个PHA在训练时候使用在inference阶段就无须使用。
2. Introduction
为了说明上述问题,作者把输入图像进行了图像离散小波变换(Discrete Wavelet Transform)

本文探讨了Transformer在PersonRe-ID领域的应用中,High-frequency信息的重要性以及VIT模型如何因Self-Attention机制而稀释这些信息。作者提出PHA网络,通过增强高频信息表达并设计patch-wise对比损失,有效解决这一问题,且PHA在推理阶段无需使用。
CVPR2023: Patch-wise High-frequency Augmentation for Transformer-basedPerson Re-id&spm=1001.2101.3001.5002&articleId=135952002&d=1&t=3&u=9848530c5cdb4391ad082d4aebbf499a)
1万+

被折叠的 条评论
为什么被折叠?



