【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】

原创

已于 2024-01-10 23:50:06 修改 · 1.7k 阅读

标签

#深度学习 #人工智能

于 2024-01-10 17:32:37 首次发布

2.4.3. 梯度

我们可以连接一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。具体而言，设函数 $f:Rn→Rf:\mathbb{R}^{n}\to\mathbb{R}$ 的输入是一个 $n$ 维向量 $x⃗=[x1x2⋅⋅⋅xn]\vec x=\begin{bmatrix} x_1\\x_2\\···\\x_n\end{bmatrix}$ ，输出是一个标量。函数 $f(x⃗)f(\vec x)$ 相对于 $x⃗\vec x$ 的梯度是一个包含 $n$ 个偏导数的向量：
$∇x⃗f(x⃗)=[∂f(x⃗)∂x1∂f(x⃗)∂x2⋅⋅⋅∂f(x⃗)∂xn]\nabla_{\vec x} f(\vec x) = \begin{bmatrix}\frac{\partial f(\vec x)}{\partial x_1}\\\frac{\partial f(\vec x)}{\partial x_2}\\···\\ \frac{\partial f(\vec x)}{\partial x_n}\end{bmatrix}$
其中 $∇x⃗f(x⃗)\nabla_{\vec x} f(\vec x)$ 通常在没有歧义时被 $∇f(x⃗)\nabla f(\vec x)$ 取代。

假设 $x⃗\vec x$ 为 $n$ 维向量，在微分多元函数时经常使用以下规则:

一、对于所有 $\in \mathbb{R^{m\times n}}$ ，都有 $∇x⃗Ax⃗=A⊤\nabla_{\vec x} A\vec x = A^\top$ ；

证明：设 $A_{(m,n)}$ = $[a1,1a1,2⋅⋅⋅a1,na2,1a2,2⋅⋅⋅a2,n⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅am,1am,2⋅⋅⋅am,n]\begin{bmatrix} a_{1,1}&a_{1,2}&···&a_{1,n} \\ a_{2,1}&a_{2,2}&···&a_{2,n} \\ ··· & ··· & ··· & ··· \\ a_{m,1} & a_{m,2} &···&a_{m,n} \end{bmatrix}$ ，
则 $Ax⃗(m,1)A\vec x_{(m,1)}$ = $[a1,1x1+a1,2x2+⋅⋅⋅+a1,nxna2,1x1+a2,2x2+⋅⋅⋅+a2,nxn⋅⋅⋅am,1x1+am,2x2+⋅⋅⋅+am,nxn]\begin{bmatrix} a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n \\ a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n \\ ··· \\ a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n \end{bmatrix}$ ,
$∇x⃗Ax⃗\nabla_{\vec x}A\vec x$ = $[∂Ax⃗∂x1∂Ax⃗∂x2⋅⋅⋅∂Ax⃗∂xn]\begin{bmatrix}\frac{\partial A\vec x}{\partial x_1}\\\frac{\partial A\vec x}{\partial x_2}\\···\\ \frac{\partial A\vec x}{\partial x_n}\end{bmatrix}$
= $[∂a1,1x1+a1,2x2+⋅⋅⋅+a1,nxn∂x1∂a2,1x1+a2,2x2+⋅⋅⋅+a2,nxn∂x1⋅⋅⋅∂am,1x1+am,2x2+⋅⋅⋅+am,nxn∂x1∂a1,1x1+a1,2x2+⋅⋅⋅+a1,nxn∂x2∂a2,1x1+a2,2x2+⋅⋅⋅+a2,nxn∂x2⋅⋅⋅∂am,1x1+am,2x2+⋅⋅⋅+am,nxn∂x2⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅∂a1,1x1+a1,2x2+⋅⋅⋅+a1,nxn∂xn∂a2,1x1+a2,2x2+⋅⋅⋅+a2,nxn∂xn⋅⋅⋅∂am,1x1+am,2x2+⋅⋅⋅+am,nxn∂xn]\begin{bmatrix}\frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_1}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_1}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_1}\\ \frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_2}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_2}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_2}\\ ···&···&···&···\\ \frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_n}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_n}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_n}\end{bmatrix}$