线性分类模型与拉普拉斯近似方法详解
1. 线性分类模型中的异常值问题
在实际应用中,线性分类模型可能会遇到异常值的问题。异常值的产生可能源于输入向量测量误差,或者目标值的错误标注。这些异常值可能会远离理想的决策边界,从而严重扭曲分类器。
逻辑回归和概率单位回归模型在处理异常值时表现不同。逻辑Sigmoid函数的尾部渐近衰减形式为 $exp(-x)$($x \to \infty$),而逆概率单位激活函数的尾部衰减形式为 $exp(-x^2)$。因此,概率单位模型对异常值更为敏感。
不过,逻辑回归和概率单位回归模型都假设数据的标注是正确的。为了将错误标注的影响纳入概率模型,可以引入一个概率 $\epsilon$,表示目标值被错误翻转的概率。这样,对于数据点 $x$,目标值的分布可以表示为:
$p(t|x) = (1 - \epsilon)\sigma(x) + \epsilon(1 - \sigma(x)) = \epsilon + (1 - 2\epsilon)\sigma(x)$
其中,$\sigma(x)$ 是输入向量 $x$ 的激活函数。$\epsilon$ 可以预先设定,也可以作为一个超参数从数据中推断得出。
2. 规范链接函数
对于具有高斯噪声分布的线性回归模型,其误差函数(对应于负对数似然)由特定公式给出。当对参数向量 $w$ 求数据点 $n$ 对误差函数的贡献的导数时,其形式为 “误差” $y_n - t_n$ 乘以特征向量 $\phi_n$,其中 $y_n = w^T\phi_n$。
同样,对于逻辑Sigmoid激活函数与交叉熵误差函数的组合,以及Softmax激活函数与多类交叉熵误
超级会员免费看
订阅专栏 解锁全文

57

被折叠的 条评论
为什么被折叠?



