关于SGD收敛性的证明

原创

已于 2024-07-25 16:18:04 修改 · 1.8k 阅读

标签

#机器学习 #人工智能 #算法 #学习 #python

于 2024-07-25 16:12:13 首次发布

最佳阅读体验
之前就对sgd的看似无脑的贪心策略感到十分新奇，为什么每次随机用一个子集的梯度来更新就可以近似整体的梯度？正好最近重新实现了一遍sgd，就顺便补一下它的理论证明。

准备工作

不妨假设我们模型的损失函数为 $L(x,\theta)$ ,其中 $x$ 是训练数据， $\theta\in R^d$ 是模型参数，一般来说我们优化的目标是找到最优的 $\theta^*$ 使得 $L(x,\theta^*)$ 最小，也就是
$\theta^* = argmin_{\theta\in R^d} L(x,\theta)$
随机梯度下降(SGD)的策略是每次随机取数据 $x$ 的一个子集，我们不妨将第 $t$ 次取出的子集记为 $x^t$ ,那么更新方式为
$\theta^{t+1} = \theta^t - \eta^tg(x^t,\theta^t)$
其中 $\eta^t$ 表示第 $t$ 次更新的学习率， $g(x^t,\theta^t) = \nabla_\theta L(x^t,\theta)$ 表示损失函数关于参数 $\theta$ 的梯度。

我们当然可以直接写出 $\theta^t$ 的通项为
$\theta^t = \theta^1-\sum_{s=1}^{t-1} \eta^sg(x^s,\theta^s)$
当然这么看的话似乎很难说明参数 $\theta$ 会收敛，更别说收敛到 $\theta^*$ 了。所以我们尝试制定一个评价指标。

那么我们要如何评价这个策略？一个比较合理的目标是最小化
$\frac{1}{T}\sum_{t=1}^{T}L(x^t,\theta^t)$
其中 $T$ 表示我们的迭代总轮数

又注意到 $L (T)$ 的最小值我们可以表示为 $\frac{1}{T}\sum_{t=1}^{T}L(x^t,\theta^*)$
那么我们的评价指标可以选择为
$\frac{1}{T}\sum_{t=1}^{T}L(x^t,\theta^t)-\frac{1}{T}\sum_{t=1}^{T}L(x^t,\theta^*)=\frac{1}{T}R(T)\ \ \ \ \ \ (1)$
其中
$R(T)=\sum_{t=1}^{T}L(x^t,\theta^t)-\sum_{t=1}^{T}L(x^t,\theta^*)$
被称为"regret"

当
$\lim_{T\rightarrow \infty}\frac{1}{T}R(T)=0$
时，我们就可以说这个策略确实是收敛的，参数 $\theta\rightarrow \theta^*$ ,也就是说，它不仅收敛，而且收敛于最优参数 $\theta^*$

证明过程

现在我们考虑对 $(1)$ 式的收敛性进行证明。不过在此之前，我们需要假设对于任意的 $t,x^t$ ,损失函数 $L(x^t,\theta)$ 都是关于 $\theta$ 的convex函数，也就是说， $\forall \theta^i,\theta^j$ ,都有
$L(x^t,\theta^i)-L(x^t,\theta^j)\geq (\theta^i-\theta^j)\cdot g(x^t,\theta^j)\ \ \ \ \ (2)$
其中 $\cdot$ 表示向量内积

现在我们就可以正式开始证明了！

想要证明 $(1)$ 式收敛于0，一个常见的办法就是为其找一个关于 $T$ 的上界 $f (T)$ ，如果 $f(T)\rightarrow 0,T\rightarrow \infty$ 的话，结论就得证了。

利用 $(2)$ 式，我们现在就能为 $R (T)$ 找一个上界
$R(T)=\sum_{t=1}^{T}L(x^t,\theta^t)-\sum_{t=1}^{T}L(x^t,\theta^*)\\ =\sum_{t=1}^{T}(L(x^t,\theta^t)-L(x^t,\theta^*))\\ \leq \sum_{t=1}^{T}(\theta^t-\theta^*)\cdot g(x^t,\theta^t)$

最低0.47元/天解锁文章