论文链接:
https://arxiv.org/pdf/1710.09412.pdf
实现代码:
https://github.com/hongyi-zhang/mixup
mixup: BEYOND EMPIRICAL RISK MINIMIZATION
混合:超越经验风险最小化
摘要
大型的深度神经网络功能强大,但是会表现出不良的行为,例如记忆和对对抗样本的敏感性。 在这项工作中,我们提出了混合方法,这是一种缓解这些问题的简单学习原理。本质上,mixup在一对样本及其标签的凸组合上训练了一个神经网络。通过这样做,mixup可以对神经网络进行正则化,从而在训练样本之间形成简单的线性行为。我们在ImageNet-2012,CIFAR-10,CIFAR-100,Google命令和UCI数据集上进行的实验表明,mixup改进了最新的神经网络体系结构的通用性。我们还发现,mixup减少了损坏标签的记忆,提高了对抗样本的鲁棒性,并稳定了生成对抗网络的训练。
1 介绍
大型深度神经网络在计算机视觉(Krizhevsky等,2012),语音识别(Hinton等,2012)和强化学习(Silver等,2016)等领域取得了突破。 首先,对他们进行训练以使他们在训练数据上的平均误差最小化,这是一种学习规则,也称为经验风险最小化(ERM)原理(Vapnik,1998年)。其次,这些最新的神经网络的规模与训练样本的数量成线性比例关系。例如,Springenberg等人(2015)的网络使用了106个参数对CIFAR-10数据集中的5·104张图像进行建模,(Simonyan&Zisserman,2015)的网络使用了108个参数对ImageNet-2012数据集中的106张图像进行建模,以及Chelba等人的网络(2013)使用2·1010参数对十亿字数据集中的109个字进行建模。
令人惊讶的是,学习理论的经典结果(Vapnik&Chervonenkis,1971)告诉我们,只要学习机器(例如神经网络)的大小不随训练数据的数量而增加,就可以保证ERM的收敛性。在这里,学习机的大小是根据其参数数量或相关的VC复杂性来衡量的(Harvey等人,2017)。
正如最近的研究强调的那样,这一矛盾挑战了ERM是否适合训练我们当前的神经网络模型。一方面,即使在强正则化的情况下,或者在标签随机分配的分类问题中,ERM仍允许大型神经网络记住训练数据(而不是从训练数据中泛化)(Zhang et al。,2017)。另一方面,用ERM训练的神经网络在训练分布之外的示例上进行评估时,其预测会发生巨大变化(Szegedy等,2014),也称为对抗样本。该证据表明,ERM无法解释或提供与训练数据仅略有不同的测试分布的概括。 但是,ERM的替代方法是什么?
翻译不下去了。。。。再见
参考
https://blog.csdn.net/ouyangfushu/article/details/87866579
https://blog.csdn.net/qq_36756866/article/details/106299705
https://blog.csdn.net/qq_42499257/article/details/105764526
https://blog.csdn.net/qq_42499257/article/details/105772038
https://blog.csdn.net/qq_42940160/article/details/116176782[github给了代码]
本文介绍了Mixup,一种用于深度神经网络的正则化技术,旨在解决过拟合、对抗样本敏感性和标签噪声问题。通过在样本对及其标签的凸组合上训练模型,Mixup能促进模型在训练样本间产生线性行为,提高泛化能力和对抗性。实验显示,Mixup在多个数据集上提升了最新神经网络架构的性能。
1092

被折叠的 条评论
为什么被折叠?



