本小节将讨论如下一般形式的最优化问题:
min x f ( x ) \min _x f(x) xminf(x)
其中 ψ \psi ψ 是一个适当的闭凸函数,这里并不要求 ψ \psi ψ 是可微或连续的(例如 ψ \psi ψ 的一部分可以是凸集的示性函数). 对于不可微的 ψ \psi ψ, 我们可以用次梯度算 法, 但是该方法往往收敛较慢, 且收敛条件比较苛刻.
首先我们要明确非光滑对于收玫性是及其不友好,
非光滑的话,我们研究次梯度方法的收敛性。次梯度的迭代为:
x k + 1 = x k − α k g k , g k ∈ ∂ f ( x k ) x^{k+1}=x^k-\alpha_k g^k, g^k \in \partial f\left(x^k\right) xk+1=xk−αkgk,gk∈∂f(xk)
非光滑对于收玫性是及其不友好的,并且次梯度方向都不能保证是一个下降方向。在光滑的情况 下,只要 α k \alpha_k αk 选的足够小 (取决于光滑系数 L g L_g Lg ) , 再不济也能保证每步的函数值能够下降,通常 是通过线搜索来完成。而次梯度由于不是下降方向,就没有这个性质了,也就是说不能保证单调下降。\
1.1. convex case\
定理1.1 (Nonsmooth + convex) 如果函数 f f f 是凸的且是Lipschitzness的。对于迭代方法
(1.1),步长选择策略为: α k = f ( x k ) − f ∗ ∥ g k ∥ 2 \alpha_k=\frac{f\left(x^k\right)-f^*}{\left\|g^k\right\|^2} αk=∥gk∥2f(xk)−f∗ 如果 g k ≠ 0 g^k \neq 0 gk=0 ,否则 α k = 1 \alpha_k=1 αk=1 。那么我们有:\
- ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 \left\|x^{k+1}-x^*\right\|^2 \leq\left\|x^k-x^*\right\|^2 xk+1−x∗ 2≤ xk−x∗ 2\
- f k → f ∗ f^k \rightarrow f^* fk→f∗ as k → ∞ k \rightarrow \infty k→∞\
- f best n − f ∗ ≤ L f ∥ x 0 − x ∗ ∥ n + 1 f_{\text {best }}^n-f^* \leq \frac{L_f\left\|x^0-x^*\right\|}{\sqrt{n+1}} fbest n−f∗≤n+1Lf∥x0−x∗∥ ,其中, f best n = min k { f ( x k ) , k = 1 , ⋯ , n } f_{\text {best }}^n=\min _k\left\{f\left(x^k\right), k=1, \cdots, n\right\} fbest n=mink{
f(xk),k=1,⋯,n}\
\href{https://zhuanlan.zhihu.com/p/92385493}{https://zhuanlan.zhihu.com/p/92385493}\
1.2strongly convex case\
定理1.2. (Nonsmooth+strongly convex) 如果函数 f f f 是 σ \sigma σ-强凸的且是Lipschitzness的。对 于迭代方法 (1.1),步长选择策略为: α k = 2 σ ( k + 1 ) \alpha_k=\frac{2}{\sigma(k+1)} αk=σ(k+1)2 。那么我们有: 对任意 k k k
f b e s t k − f ∗ ≤ 2 L f 2 σ ( k + 1 ) f_{b e s t}^k-f^* \leq \frac{2 L_f^2}{\sigma(k+1)} fbestk−f∗≤σ(k+1)2Lf2
其中 f best k = min i { f ( x i ) , i = 1 , ⋯ , k } f_{\text {best }}^k=\min _i\left\{f\left(x^i\right), i=1, \cdots, k\right\} fbest k=mini{ f(xi),i=1,⋯,k} 。\
\subsection{近似点算法}
本小节将讨论如下一般形式的最优化问题:
min x ψ ( x ) , \min _x \psi(x), xminψ(x),
其中 ψ \psi ψ 是一个适当的闭凸函数, 这里并不要求 ψ \psi ψ 是可微或连续的(例如 ψ \psi ψ 的一部分可以是凸集的示性函数). 对于不可微的 ψ \psi ψ, 我们可以用次梯度算 法, 但是该方法往往收玫较慢, 且收玫条件比较苛刻. 我们也可以考虑如下 隐式格式的次梯度算法:
x k + 1 = x k − t k ∂ ψ ( x k + 1 ) . x^{k+1}=x^k-t_k \partial \psi\left(x^{k+1}\right) . xk+1=xk−tk∂ψ(xk+1).
上面的格式只是形式上的. 类似于之前的近似点梯度算法, 可以用邻近算子 表示隐式格式:近似点算法格式可以写成
x k + 1 = prox t k ψ ( x k ) = arg min u { ψ ( u ) + 1 2 t k ∥ u − x k ∥ 2 2 } , \begin{aligned} x^{k+1} & =\operatorname{prox}_{t_k \psi}\left(x^k\right) \\ & =\underset{u}{\arg \min }\left\{\psi(u)+\frac{1}{2 t_k}\left\|u-x^k\right\|_2^2\right\}, \end{aligned} x

文章探讨了非光滑最优化问题,包括次梯度算法在处理不可微凸函数时的收敛性和局限性。介绍了Nesterov加速方法如何提升一阶算法的收敛速度,特别是对于光滑部分的梯度是利普希茨连续的优化问题。此外,文章还讨论了复合优化问题以及原问题与对偶问题的关系,强调了对偶问题在某些情况下的优势。

2150

被折叠的 条评论
为什么被折叠?



