复习概统的时候突然发现好像极大似然估计MLE与机器学习的数据驱动非常相似,都是采样样本然后估计模型参数。貌似,后知后觉的才意识到极大似然估计就是机器学习有效的数学保证
下面以拟合线性分布的最小二乘与分类问题为例推到以下如何从似然函数推导出MSE损失与交叉熵损失
一、线性回归的最小二乘法
1. 概率模型设定
假设数据由线性模型生成,且观测噪声服从 正态分布:
y=wTx+ϵ,ϵ∼N(0,σ2) y = \mathbf{w}^T \mathbf{x} + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2) y=wTx+ϵ,ϵ∼N(0,σ2)
则给定输入x\mathbf{x}x 时,yyy 的条件概率密度为:
p(y∣x;w)=12πσ2exp(−(y−wTx)22σ2) p(y | \mathbf{x}; \mathbf{w}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y - \mathbf{w}^T \mathbf{x})^2}{2\sigma^2} \right) p(y∣x;w)=2πσ21exp(−2σ2(y−wTx)2)
均值即为(y−wTx)2(y - \mathbf{w}^T \mathbf{x})^2(y−wTx)2
2. 似然函数与对数似然
对于独立同分布的 NNN 个样本 { (xi,yi)}i=1N\{(\mathbf{x}_i, y_i)\}_{i=1}^N{(xi,y


4008

被折叠的 条评论
为什么被折叠?



