最小二乘法的数学解释

最新推荐文章于 2026-05-16 14:53:38 发布

原创最新推荐文章于 2026-05-16 14:53:38 发布 · 320 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

机器学习专栏收录该内容

1 篇文章

订阅专栏

该文深入探讨了线性回归模型中的最大似然估计（MLE）方法。通过对误差项设置高斯分布假设，建立了模型的似然函数，并通过取对数转换为对数似然函数。目标是最大化这个对数似然函数，这等价于最小化残差平方和。文章详细阐述了这一优化过程及其在回归分析中的应用。

我们做出如下假设：
$y^{(i)}=\theta^\top x^{(i)} + \epsilon^{(i)}$
其中 $ϵ(i)∼N(0,σ2)\epsilon^{(i)} \sim N(0, \sigma^2)$ ，代表unmodeled effects和random noises
亦即 $P(ϵ(i))=12πσexp⁡(−(ϵ(i))22σ2)P(\epsilon^{(i)}) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left(-\dfrac{(\epsilon^{(i)})^2}{2\sigma^2} \right)$
并且 $ϵ(i)\epsilon^{(i)}$ 是独立同分布 IID(Independent and Identically Distribution)

这些假设意味着：
$P(y^{(i)} | x^{(i)} ; \theta) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left(-\dfrac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2} \right)$
使用极大似然估计MLE (Maximum Likelihood Estimation)
设 $L(θ)L(\theta)$ 表示 likelihood of $θ\theta$
$L(\theta) = P(\vec y | \vec x ; \theta) = \prod_{i=1}^m P(y^{(i)} | x^{(i)} ; \theta) \\ = \prod_{i=1}^m\frac{1}{\sqrt{2\pi} \sigma} \exp \left(-\dfrac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2} \right)$
设 $l(θ)l(\theta)$ 表示 log likelihood
$\begin{aligned} l(\theta) & = \log L(\theta) \\ & = \log \prod_{i=1}^m\frac{1}{\sqrt{2\pi} \sigma} \exp \left(-\dfrac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2} \right) \\ & = m \log \frac{1}{\sqrt{2\pi}} - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)}-\theta^\top x^{(i)})^2 \end{aligned}$
为了使 $L(θ)L(\theta)$ 尽可能大，需使 $∑i=1m(y(i)−θ⊤x(i))2\sum_{i=1}^m (y^{(i)}-\theta^\top x^{(i)})^2$ 尽可能小