机器学习（一）——线性回归（Linear Regression）

最新推荐文章于 2022-10-17 00:17:23 发布

原创最新推荐文章于 2022-10-17 00:17:23 发布 · 499 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

神经网络专栏收录该内容

1 篇文章

订阅专栏

这篇博客介绍了机器学习中的线性回归，通过房价预测问题阐述问题陈述，详细讲解了寻找目标函数的过程，并重点讨论了使用梯度下降法最小化代价函数的方法，最终目的是通过线性回归模型对未知房价进行预测。

问题陈述

用一个简单的例子来描述用线性回归——房价预测问题。
$y$ 表示房子的价格（单位：美元）， $x_j$ 表示房子的特征（例如：面积、卧室的数目等等）。假设我们已经有了m个房子的样本，每个房子有n种特征值，用 $x^{(i)}$ 和 $y^{(i)}$ 分别表示第 $i$ 个房子的特征和价格。

寻找目标函数

简而言之，我们希望找到一个目标函数（Hypothesis Function） $h(\theta)$ 使得对于每一个样本都有 $y^{(i)}\approx h(x^{(i)})$ 。假设找到了一个这样的目标函数 $h(\theta)$ ，那么我们希望 $h(\theta)$ 不仅能够很好的拟合现有的样本，并且在我们提供一个未知房价的房子的特征时， $h(\theta)$ 能够预测出这个房子的房价。
如果我们用线性回归来解决这个问题，就可以设 $h(\theta)$ 为如下形式：

h θ (x) = \sum j = 0 n θ j x j = Θ ⊤ X

$h_\theta(x)=\sum_ {j=0}^{n} \theta_j x_j=\Theta^\top X$
接下来，就要选择一组

Θ $\Theta$ ，使得

hθ(x(i)) $h_\theta(x^{(i)})$ 的值尽可能的接近

y(i) $y^{(i)}$ 。可以采用一个代价函数（Cost Function）

J(Θ) $J(\Theta)$ 来衡量实际输出

hθ(x(i)) $h_\theta(x^{(i)})$ 与目标输出

y(i) $y^{(i)}$ 间的误差。当这个误差最小时，就表示我们找到了一组

θj $\theta_j$ （向量表示为

Θ $\Theta$ ），使得

hθ(x(i)) $h_\theta(x^{(i)})$ 最接近于

y(i) $y^{(i)}$ 。设

J(Θ) $J(\Theta)$ 形式如下：

J (Θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\Theta)=\frac1{2m}\sum_ {i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

最小化代价函数

有许多方法可以最小化代价函数 $J(\Theta)$ ，这里介绍最常用的一种——梯度下降法（Gradient Descent）。
为了简化说明，现在考虑最简单的情况，即每个房子只有一种特征（n=1）。那么目标函数可表示为： $h_\theta(x)=\theta_0+ \theta_1x_1$ ，代价函数就只包含两个参数 $\theta_0$ 和 $\theta_1$ ，可表示为： $J(\theta_0,\theta_1)=\frac1{2m}\sum_ {i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$ 。现在，x轴表示 $\theta_0$ ，y轴表示 $\theta_1$ ，z轴表示 $J(\theta_0,\theta_1)$ ，作图如下：
这里写图片描述
由图可知，该图的谷底是 $J(\theta_0,\theta_1)$ 最小的点。如何找到这个点呢？我们可以在该图上随机选取一个点，求该点的斜率，沿斜率下降（注意：沿斜率下降，也就是朝导数的反方向走），每次下降的步长由学习率 $\alpha$ 决定。当下降到下一个点后，重复以上步骤，就可以逼近最低点。梯度下降法的公式表示如下：