梯度下降（gradient descent）

最新推荐文章于 2025-08-03 11:51:46 发布

原创

最新推荐文章于 2025-08-03 11:51:46 发布 · 2.7k 阅读

标签

#随机梯度 #sgd #线性回归 #逻辑回归 #softmax

梯度

在某个点的位置法向量,所以它的方向表示下降最快或者上升最快也就很好理解了。
法向量：假设平面a与向量n垂直，且n是非零向量，那么n就是a的法向量。由于是垂直的关系，针对当前点而言，肯定是变化最快的方向。

这里写图片描述

梯度是一个方向，而且是针对某个点（其实是这个点对应的切面）

这个方法变化率最快，用偏导来表达 $\nabla= (\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z})\tag{1}$

梯度下降方法主要用户解决机器学习的训练问题。于是引出监督学习。

监督学习

如上图所示，监督学习:对于给定的训练集合，按照某一学习算法学习之后，得到一种好的假设(Hypotheses)用于预测新的数据。
而学习的过程，很多都利用了梯度下降法，比如：线性回归、神经网络等。

已知m组数据 $(x_1,y_1),....,(x_m,y_m)$ ,其中 $x_i$ 是具有n维特征的向量。我们做如下假设：

h (x) = \sum i = 0 m θ i x i = θ T x (2)

$h(x) = \sum_{i=0}^{m} \theta_i x_i = \theta^T x \tag{2}$
对于给定的训练集合，如何选择最优的

θ $\theta$ 值。一个方法是：至少在训练集合上，h（x）越接近实际值y越好。因此，制定一个成本函数（cost function）则至关重要，在机器学习模型中，都必须有一个成本函数或者误差函数，这样才有目标性。
定义目标函数为:

J (θ) = 1 2 \sum i = 1 m (h (x (i)) - y (i)) 2 (3)

$J(\theta)= \frac{1}{2}\sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^2 \tag{3}$

有的地方用了下标，为了区分，注意上标代表第i个训练样本，下标代表第j个特征。后面会重复提到，因为这地方特别容易弄混。

该成本函数使用的误差的平方和，类似于普通的最小二乘法。后续我们会发现，可以使用各种极大似然，对数极大似然。

kmeans聚类的成本函数，类似上面的方法，其中 $y_i$ 就相当于质心的概念，每个样本和质心的距离之和最小；当然有k个聚类的，则不能只满足一个聚类结果方差较小，而是所有的聚类的方差之和最小。看来，很多问题都是相通的。
参考：http://blog.csdn.net/iterate7/article/details/75194548

无论什么学习训练算法，必须了解几个方面，比如：训练数据；训练算法的成本函数或者目标函数；训练的步骤和参数如何更新；最终的输出；以及训练中的各种细节trick。然后再结合实际项目进行实战和反复思考，然后读paper，总结出训练算法的特点，以后可以方便的使用和解决问题。

解决问题

上面的成本函数也有了，下面就要解决，参数如何求解的问题。
为了满足上面的成本函数，并利用梯度下降法来解决这个问题的算法我们称之为：最小均方法LMS，least mean squares；也成为:也被称为Widrow-Hoff 学习算法。
那么几个问题来了：我们需要解决的参数如何更新和训练。
1. 初始化参数 $\theta$ , 各种随机方法，也有专门的方法用于优化。
2. 更新 $\theta$ 的方法如下：