贝叶斯深度学习标准工具箱的使用
1. 深度集成学习介绍
深度集成学习的核心思想很简单:训练多个不同的深度神经网络(DNN)模型,然后通过平均它们的预测结果来提升模型性能,并利用这些模型预测结果之间的一致性来估计预测的不确定性。
假设我们有训练数据 $X$($X \in R^D$)和对应的目标标签 $y$。以图像分类为例,训练数据是图像,目标标签是表示图像中物体类别的整数,即 $y \in {1, …, K}$,其中 $K$ 是类别总数。训练单个神经网络时,我们对标签的概率预测分布 $p_{\theta}(y|x)$ 进行建模,并优化神经网络的参数 $\theta$。
对于深度集成学习,我们训练 $M$ 个神经网络,其参数可表示为 ${\theta_m} {m = 1}^{M}$,每个 $\theta_m$ 都使用 $X$ 和 $y$ 独立进行优化(即每个神经网络在相同数据上独立训练)。深度集成成员的预测结果通过平均进行组合,公式为 $p(y|x) = M^{-1} \sum {m = 1}^{M} p_{\theta_m}(y|x, \theta_m)$。
如果只有一个数据集用于训练,如何训练多个不同的神经网络模型呢?最初论文提出的策略(也是最常用的策略)是每次训练时随机初始化网络权重。由于神经网络的权重参数通常比训练数据集中的样本数量多,相同的训练数据观测值可以由许多不同的权重参数组合近似。在训练过程中,不同的神经网络模型会收敛到各自的参数组合,并在损失曲面上占据不同的局部最优解。因此,不同的神经网络对给定的数据样本往往有不同的看法,也会犯不同的错误。集成中不同网络之间的共识程度可以提供关于集成对给定数据点预测的确定性信息:网络之间的一
超级会员免费看
订阅专栏 解锁全文

65

被折叠的 条评论
为什么被折叠?



