类别不平衡处理：从理论到工程的系统性框架

最新推荐文章于 2026-06-16 15:57:34 发布

原创最新推荐文章于 2026-06-16 15:57:34 发布 · 316 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #人工智能 #深度学习 #图像检测

机器学习同时被 3 个专栏收录

55 篇文章

订阅专栏

深度学习

23 篇文章

订阅专栏

图像检测

3 篇文章

订阅专栏

1. 为什么类别不平衡会导致模型失效？

类别不平衡的本质不是“样本少”，而是训练分布与真实决策目标发生偏移，导致模型在优化过程中出现系统性偏差，（从数量 → 结构）。核心失效机制包括：

1.1 先验概率偏置（Prior Shift）

模型学习的是条件概率 $Ptrain(y∣x)P_{\text{train}}(y|x)$ ，但真实任务是预测 $Ptest(y∣x)P_{\text{test}}(y|x)$ 。当训练集类别分布 $Ptrain(y)P_{\text{train}}(y)$ 显著偏离测试集分布 $Ptest(y)P_{\text{test}}(y)$ 时：

Logit 偏置：模型倾向于预测多数类（高先验概率），导致少数类的预测概率系统性低估。
Softmax 输出挤压：多数类占据大量概率质量，少数类预测置信度虚低，阈值判断失效。

1.2 梯度贡献失衡

损失函数优化目标（如交叉熵）受多数类主导：
$\sum_i L_i \quad \text{(总损失为样本损失之和)}$

少数类梯度被多数类梯度“淹没”，参数更新偏向多数类特征。
决策边界被迫向少数类区域压缩，导致少数类样本更易被误判为多数类（高漏检率）。

1.3 特征学习不足（Representation Collapse）

少数类样本稀疏导致：

模型无法充分捕捉其复杂模式（如纹理、形状），特征空间表征能力弱。
模型倾向于将少数类视为“异常值”或“噪声”，难以建立可靠映射。

1.4 概率校准失真

模型输出的预测概率失去可信度：

多数类预测概率虚高，少数类概率虚低，导致阈值选择困难。
评估指标（如Accuracy）虚高，掩盖实际性能问题（尤其在安全关键场景中致命）。

2. 数据层方法（Data-level）

2.1 重采样（Re-sampling）

过采样

Random Oversampling：简单复制少数类样本，易过拟合。
SMOTE (Synthetic Minority Over-sampling Technique)：通过插值生成少数类合成样本。
Borderline-SMOTE：仅对边界样本生成合成数据，减少过拟合风险。

欠采样

Tomek Links：删除多数类中的“冲突样本”（与少数类样本互为近邻）。
NearMiss：保留最具代表性的多数类样本，避免信息丢失。
⚠️ 风险：欠采样可能丢失多数类关键信息；过采样易导致模型过拟合或模式坍塌。

2.2 生成式增强

GAN/扩散模型（Diffusion Models）：生成高质量、类条件可控的少数类样本。
适用场景：图像、文本等复杂数据，尤其适用于极端长尾分布或稀有事件（如工业缺陷检测）。

2.3 采样策略优化

Class-aware Sampling：按类别比例动态调整采样权重。
Hard Example Mining Sampling：优先采样损失高的样本（结合在线难例挖掘）。
Temperature-based Sampling：通过温度参数调节采样分布的尖锐程度。

3. 损失函数层（Loss-level）

3.1 加权交叉熵（Class Weighting）

$wi=1log⁡(1+ni)(反向类频加权)w_i = \frac{1}{\log(1 + n_i)} \quad \text{(反向类频加权)}$
作用：通过权重补偿类别频数差异，避免极端权重导致训练不稳定。

3.2 Focal Loss（α-balanced Focal Loss）

标准形式：
$FL(pt)=−αt(1−pt)γlog⁡(pt)\text{FL}(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$

$αt\alpha_t$ ：类别平衡权重（如 $αt=1nt\alpha_t = \frac{1}{n_t}$ ）。
$γ\gamma$ ：聚焦参数，降低易分类样本的贡献，强化难例学习。

3.3 Class-balanced Loss（基于有效样本数）

$β≈11+有效样本数)w_c = \frac{1 - \beta}{1 - \beta^{n_c}} \quad \text{(其中 } \beta \approx \frac{1}{1 + \text{有效样本数}})$
优势：自动平衡权重，避免极端长尾导致权重爆炸。

3.4 Logit Adjustment（直接修正偏置）

$为先验概率)z_i' = z_i + \log \pi_i \quad \text{(其中 } \pi_i \text{ 为先验概率)}$
核心思想：通过调整模型输出logit直接抵消先验概率偏差，在工业场景中效果显著。

4. 训练策略层（Training-level）

4.1 Decoupled Training（解耦训练）

两阶段范式：

联合训练阶段：
- 使用不平衡数据联合训练特征提取器（Backbone）和分类器。
解耦训练阶段：
- 冻结特征提取器，仅微调分类器，采用类别平衡采样。
- 关键策略：
  - cRT (Classifier Re-training)：重新训练分类器权重。
  - τ-Normalization：归一化分类器权重（如L2归一化）。
  - LWS (Learnable Weight Scaling)：学习每个类别的缩放因子优化决策边界。

4.2 Hard Example Mining

OHEM (Online Hard Example Mining)：动态筛选高损失样本进行反向传播。
Loss Top-k Backprop：仅对损失最高的k个样本计算梯度。

4.3 Ensemble方法

EasyEnsemble：通过多次欠采样构建多个基模型，集成投票。
BalancedBagging：结合Bootstrap采样和类别平衡，提升稳定性与召回率。

5. 表征层方法（Representation-level）

5.1 自监督预训练（核心推荐）

SimCLR / MoCo / DINO：通过对比学习在无标签数据上预训练，增强特征可分性。
作用：在数据稀缺场景下，为少数类提供更鲁棒的初始表征。

5.2 对比学习增强

通过最大化正样本对相似度、最小化负样本对相似度，拉大类间边界，而非仅依赖分类头。

5.3 迁移学习

利用大规模预训练模型（如ImageNet权重）初始化特征提取器，缓解数据不足问题。

6. 评估体系（科学度量）

拒绝使用Accuracy！ 推荐指标：

mAP (Mean Average Precision)：综合评估不同召回率下的精度。
PR-AUC (Precision-Recall Curve下面积)：衡量类别不平衡场景下的整体性能。
类级Recall / F1-score：特别关注少数类的检测能力。
校准指标：
- ECE (Expected Calibration Error)：量化预测概率与真实标签的一致性。
- Reliability Diagram：可视化概率校准质量。