【目标检测】数据增强方法--mixup

最新推荐文章于 2026-03-29 10:31:24 发布

原创最新推荐文章于 2026-03-29 10:31:24 发布 · 1.4k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

论文笔记专栏收录该内容

22 篇文章

订阅专栏

本文介绍了Mixup，一种用于深度神经网络的正则化技术，旨在解决过拟合、对抗样本敏感性和标签噪声问题。通过在样本对及其标签的凸组合上训练模型，Mixup能促进模型在训练样本间产生线性行为，提高泛化能力和对抗性。实验显示，Mixup在多个数据集上提升了最新神经网络架构的性能。

论文链接：
https://arxiv.org/pdf/1710.09412.pdf

实现代码：
https://github.com/hongyi-zhang/mixup

mixup: BEYOND EMPIRICAL RISK MINIMIZATION
混合：超越经验风险最小化

摘要

大型的深度神经网络功能强大，但是会表现出不良的行为，例如记忆和对对抗样本的敏感性。在这项工作中，我们提出了混合方法，这是一种缓解这些问题的简单学习原理。本质上，mixup在一对样本及其标签的凸组合上训练了一个神经网络。通过这样做，mixup可以对神经网络进行正则化，从而在训练样本之间形成简单的线性行为。我们在ImageNet-2012，CIFAR-10，CIFAR-100，Google命令和UCI数据集上进行的实验表明，mixup改进了最新的神经网络体系结构的通用性。我们还发现，mixup减少了损坏标签的记忆，提高了对抗样本的鲁棒性，并稳定了生成对抗网络的训练。

1 介绍

大型深度神经网络在计算机视觉（Krizhevsky等，2012），语音识别（Hinton等，2012）和强化学习（Silver等，2016）等领域取得了突破。首先，对他们进行训练以使他们在训练数据上的平均误差最小化，这是一种学习规则，也称为经验风险最小化（ERM）原理（Vapnik，1998年）。其次，这些最新的神经网络的规模与训练样本的数量成线性比例关系。例如，Springenberg等人（2015）的网络使用了10⁶个参数对CIFAR-10数据集中的5·10⁴张图像进行建模，（Simonyan＆Zisserman，2015）的网络使用了10⁸个参数对ImageNet-2012数据集中的10⁶张图像进行建模，以及Chelba等人的网络（2013）使用2·10¹⁰参数对十亿字数据集中的10⁹个字进行建模。

令人惊讶的是，学习理论的经典结果（Vapnik＆Chervonenkis，1971）告诉我们，只要学习机器（例如神经网络）的大小不随训练数据的数量而增加，就可以保证ERM的收敛性。在这里，学习机的大小是根据其参数数量或相关的VC复杂性来衡量的（Harvey等人，2017）。

正如最近的研究强调的那样，这一矛盾挑战了ERM是否适合训练我们当前的神经网络模型。一方面，即使在强正则化的情况下，或者在标签随机分配的分类问题中，ERM仍允许大型神经网络记住训练数据（而不是从训练数据中泛化）（Zhang et al。，2017）。另一方面，用ERM训练的神经网络在训练分布之外的示例上进行评估时，其预测会发生巨大变化（Szegedy等，2014），也称为对抗样本。该证据表明，ERM无法解释或提供与训练数据仅略有不同的测试分布的概括。但是，ERM的替代方法是什么？

翻译不下去了。。。。再见