样本不平衡的数据建模——decoupling representation and classifier

最新推荐文章于 2025-06-17 21:43:40 发布

原创

最新推荐文章于 2025-06-17 21:43:40 发布 · 1.6k 阅读

标签

#神经网络

收录于

本文介绍了一种名为Decoupling Representation and Classifier的方法，该方法将分类模型的特征表示和分类部分分离，分别进行训练，以提高长尾识别任务的性能。通过在多个数据集上进行实验，该方法在少样本类别上的表现优于联合训练模型。

一、简要说明

decoupling representation and classifier（解耦特征表示模块和分类模块），将原来的分类模型拆分成两部分分别进行训练。比如ResNet-50，一般有神经网络层+分类层（全连接+softmax）构成。以前的模型是对这两部分做联合估计和拟合，但是decoupling representation and classifier是将这两部分分开来估计。

二、来源

该方法来自于论文：DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION
论文网址：https://openreview.net/pdf?id=r1gRTCVFvB
论文代码：https://github.com/facebookresearch/classifier-balancing
该方法据说有The state of art的效果，但本人还没有测试。

三、数据集

论文数据集
Places-LT 、mageNet-LT 、iNaturalist 2018都是图片数据集。三个数据集有些类别的样本量特别少（如5个），而有些类别的样本量很多（如5千个）。建模目的是对图片进行分类。

四、模型架构

特征表示部分使用ResNet-50模型，分类部分作者尝试了多种形式，这些形式的一般形式是
在这里插入图片描述

1）Classifier Re-training (cRT)
先对ResNet-50和classifire部分进行训练，然后ResNet-50模型架构保持不变，利用class-balanced数据对上面的一般形式进行拟合。

2）Nearest Clas

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fcd_abc

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度学习论文: Decoupling Representation and classifier for long-tailed recognition及其PyTorch实现

mingo_敏

05-07

6195

Decoupling Representation and classifier for long-tailed recognition PDF:https://arxiv.org/pdf/1910.09217.pdf PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks Official :https://github.com/...

参与评论您还未登录，请先登录后发表或查看评论

长尾分布系列论文解析（一）Decoupling Representation and Classifier for Long-Tailed Recognition

罟霖同学的站点

11-21

3755

长尾分布系列论文解析：分类问题中的长尾分布。论文名:Decoupling Representation and Classifier for Long-Tailed Recognition

《Decoupling Representation and Classifier for Long-Tailed Recognition》阅读笔记

AncilunKiang的博客

02-28

2380

视觉世界的长尾分布对基于深度学习的分类模型如何处理类不平衡问题提出了巨大的挑战。现有的解决方案通常涉及类平衡策略（class-balancing strategies）例如通过损失重加权、数据重采样，或者从头部类别到尾部类别的迁移学习，但它们大多数遵循共同学习表示和分类器的方案。在这项工作中，我们**将学习过程解耦（decouple）为表示学习和分类（representation learning and classification），并系统地探索不同的平衡策略如何影响长尾识别。

独立化处理的实践：如何降低系统的复杂度

东海陈光剑的博客：禅与计算机程序设计艺术

01-07

1367

1.背景介绍随着数据量的增加和计算机系统的复杂化，处理大规模数据和复杂任务变得越来越困难。为了提高处理效率和降低系统复杂度，独立化处理(Decoupling)成为了一个重要的技术手段。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑战附录常见问题与解答 1.1 背景介绍在现代...

《Decoupling Representation and Classifier》笔记

05-13

1019

Paper:《Decoupling Representation and Classifier for Long-tailed Recognition》Publishedat ICLR 2020Keywords:Long-Tailed Image Recognition. 【概览】作者将分类网络分解为representation learning 和 classification 两部分，系统的研究了这两部分对于Long-tailed问题的影响。通过实验得到的两点发现是：数据不均衡问题不会影响高.

论文笔记：DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION

weixin_40371649的博客

12-02

981

原文地址代码本文来自ICLR20。对长尾识别，通常是joint学习，就是representation和分类一起进行。本文的创新点就在于打破这个固有认识。现有类平衡策略三种维度：损失重采样，数据重采样，学习从头到尾转换（迁移学习）。第一种损失在各类别上不同，各类别的损失权重不同，难样本(hard example)需要更加重视。第二种数据分布再平衡。头类的欠采样、尾类的过采样和数据实例的重加权。第三种将头部知识应用到尾部分类。问题视觉现象遵循长尾分布，许多标准方法都无法正确建模，从而导致准确性

DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION

最新发布

weixin_47020721的博客

06-17

935

在本文中，我们将学习过程解耦为表征学习和分类，系统地探究不同的平衡策略如何对长尾识别产生影响。研究结果令人惊讶：（1）数据不平衡在学习高质量表征时可能并非问题；（2）通过最简单的实例平衡（自然）采样学习得到的表征，仅通过调整分类器也有可能实现强大的长尾识别能力。我们进行了大量实验，并在常见的长尾基准测试（如ImageNet-LT、Places-LT和iNaturalist）上创造了新的最先进性能，表明通过使用一种将表示与分类解耦的简单方法，有可能超越精心设计的损失函数、采样策略，甚至是带有记忆的复杂模块。

长尾分布之DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION

画心

11-08

1598

原始文档：https://www.yuque.com/lart/papers/drggso ICLR 2020的文章. 针对长尾分布的分类问题提出了一种简单有效的基于re-sample范式的策略. 提出的方法将模型的学习过程拆分成两部分:representation learning 和 classification. 对于前者, 则将完整的模型在原始的数据分布上进行训练, 即instance-balanced (natural) sampling, 从而学习_the best and most gene.

解耦表征与分类器：DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION（ICLR2020）

qq_36616304的博客

05-23

5526

简介论文出自ICLR2020，新加坡国立大学和 Facebook AI联合著作。代码：https://github.com/facebookresearch/classifier-balancing. 摘要视觉世界的长尾分布对于基于深度学习的分类模型如何处理类不平衡问题提出了巨大的挑战。现有的解决方案通常涉及类平衡策略，例如通过损失加权，数据重新采样或将学习从头到尾的类迁移到其他类别，但其中大多数坚持联合学习表示和分类的方案。在这项工作中，我们将学习过...

机器学习常见的sampling策略附PyTorch实现

2401_85327249的博客

06-19

1277

print(inf)')')每个类的采样概率可抽象为：\(p_j=\frac{n_jCn_i^q}\)，\(p_j\)表示从j类采样数据的概率；\(C\)表示类别数量；\(n_j\)表示j类样本数；因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

SDC论文详解Semantic Drift Compensation for Class-Incremental Learning. CVPR 2020

祥瑞的技术博客

04-18

3235

论文地址: https://arxiv.org/abs/2004.00440 一、贡献点文章发表于CVPR2020，用于解决增量学习中类别增量的问题。贡献点有下面几个：不同于以往的交叉熵loss, 本文的embedding network提出了triple loss，关于triple loss会在后面进行介绍，triple loss简单理解为基于特征空间质心的loss，样本提取特征后，距离特征空间的离质心越近，则loss越小，反之则越大。本文的SDC（Semantic Dr...

DEEP NEAREST CLASS MEAN CLASSIFIERS

weixin_40286308的博客

08-20

1125

我还特意去摘要确认了一下，他们就是针对普通的NCM更新原型困难的痛点，加了一个动量更新的机制。后面勉强提出来对动量更新的两个“改进”，也没什么用，所以我都懒得写。2017年的Prototypical Networks（用于小样本学习），虽然是直接基于NCM分类器来学习deep representation的，但是他们的方法很难扩展到大规模的分类。2017年的icarl，虽然用了NCM分类器，但是他们的特征是基于softmax分类器学出来的。对于深度特征表示的学习，难点就在于随着学习的进行，uy的更新。

NIPS2022_Decoupling Classifier for Boosting Few-shot ObjectDetection and Instance Segmentation论文阅读

zzzzry的博客

03-28

724

本文主要研究的是少镜头目标检测(FSOD)和实例分割(FSIS)，这需要一个模型能够快速适应具有少量标记实例的新类。由于缺少标签问题，现有方法严重存在偏见分类，这在实例级少射场景中自然存在，并且是由我们首次正式提出的。因此，我们提出了一种令人尴尬的简单但有效的方法，将标准分类器解耦为两个头。这样，模型可以有效地学习新的类，同时减轻了有噪声的负样本的影响。在没有任何额外的计算成本和参数的情况下，我们的模型在FSOD和FSIS任务的PASCAL VOC和MS-COCO基准测试中始终优于其基线和最先进的水平。

Decoupling Representation and Classifier for Long-Tailed Recognition

qihshe的博客

04-29

857

本文探讨了深度学习在长尾分布数据集上的分类问题，并提出了将表示学习和分类器学习分开的方法。通过实验发现，即使使用最简单的平衡采样方法，也可以获得高质量的表示学习结果，并且只调整分类器即可实现强大的长尾识别能力。

NeurIPS 2020 | 数据类别不平衡/长尾分布？不妨利用半监督或自监督学习

深度学习与计算机视觉

10-06

1234

作者：Yuzhe Yang链接：https://zhuanlan.zhihu.com/p/259710601本文转载自知乎，作者已授权，未经许可请勿二次转载来给大家介绍一下我们的最新工作...

论文阅读十一：BagofTricks-LT 解决数据不均衡的各种trick

weixin_45209433的博客

08-19

1143

下面的内容来自各个博客，这里主要是学习和理解 1、为什么会存在不平衡的现象？其实很好理解，一个通用的解释就是特定类别的数据是很难收集的。拿Species分类来说（参考大型数据集iNaturalist[1]），特定种类（如猫，狗等）非常常见，但是有的种类（如高山兀鹫，随便举的例子…）就非常稀有。再比如对自动驾驶，正常行驶的数据会占大多数，而真正发生异常情况/存在车祸危险的数据却极少。再比如对医疗诊断，患有特定疾病的人群数相比正常人群也是极度不平衡的。对于healthcare data来说另一个可能原因是和

【看看这长尾学习】解耦训练 Balanced group Softmax

Leomn_J的博客

11-25

1254

04 Overcoming classifier imbalance for long-tail object detection with balanced group softmax 论文观点和表现：现有检测方法在数据集严重倾斜时不能对极少数类进行建模，这导致分类器在参数量级上不平衡。并且长尾分类模型并不能直接应用于检测框架。本文提出了一个新的平衡组（BAGS）模型来平衡检测框架内的分类器，能够隐式的调制尾部和头部类别的训练过程并且确保训练充分（没有对尾部实例进行额外的采样） ...

Paper摘记：Bagging and Boosting for the Nearest Mean Classifier:

windy444的专栏

01-01

1273

全名：Bagging and Boosting for the Nearest Mean Classifier:Effects of Sample Size on Diversity and Accuracy作者：Marina Skurichina, Liudmila I. Kuncheva and Robert P.W. Duin摘记：理论上，组合独立的分类器，会得到比单一分类器更好

Decoupling Representation and Classifier for Long-Tailed Recognition论文笔记

tcmyxc的博客

05-12

908

Decoupling Representation and Classifier for Long-Tailed Recognition论文笔记 Facebook出品，ICLR2020会议论文，官方代码摘要视觉世界的长尾分布对基于深度学习的分类模型提出了巨大的挑战，即如何处理类不平衡问题。现有的解决方案通常涉及类平衡策略，例如通过损失重新加权、数据重新采样，或将学习从头尾类转移到尾类，但大多数方案都坚持联合学习表征和分类器的方案。在这项工作中，我们将学习过程分解为表征学习和分类，并系统地探讨了不同的平衡

差文解析 IIRC: Incremental Implicitly-Refined Classification

祥瑞的技术博客

04-26

1191

论文地址：[2012.12477] IIRC: Incremental Implicitly-Refined Classification (arxiv.org) 不介意浪费时间的可以把原论文扒出来读一读，见识一下这篇论文的差。（手动狗头）。不介意浪费时间的可以读一读博主的文章，因为博主已经浪费时间读了一下这个论文，还写了一下。（手动狗头）本篇论文比较差劲，方法层面相当于提出一个IIRC(Incremental implicitly refined classification)，但是这个IIRC