矩阵向量求导
矩阵向量求导不过是一种方便的计算形式,用来保存一系列偏导结果的符号,具体形式如下(A(t)是矩阵,t是标量):
A ( t ) = [ a 11 ( t ) a 12 ( t ) a 13 ( t ) a 21 ( t ) a 22 ( t ) a 23 ( t ) a 31 ( t ) a 32 ( t ) a 33 ( t ) ] A(t)= \left[ \begin{matrix} a_{11}(t) & a_{12}(t) & a_{13}(t) \\ a_{21}(t) & a_{22}(t) & a_{23}(t) \\ a_{31}(t) & a_{32}(t) & a_{33}(t) \end{matrix} \right] A(t)=⎣⎡a11(t)a21(t)a31(t)a12(t)a22(t)a32(t)a13(t)a23(t)a33(t)⎦⎤
(1) ∂ A ( t ) ∂ t = [ a 11 ′ ( t ) a 12 ′ ( t ) a 13 ′ ( t ) a 21 ′ ( t ) a 22 ′ ( t ) a 23 ′ ( t ) a 31 ′ ( t ) a 32 ′ ( t ) a 33 ′ ( t ) ] \frac{\partial A(t)}{\partial t} = \left[ \begin{matrix} a'_{11}(t) & a'_{12}(t) & a'_{13}(t) \\ a'_{21}(t) & a'_{22}(t) & a'_{23}(t) \\ a'_{31}(t) & a'_{32}(t) & a'_{33}(t) \end{matrix} \right] \tag{1} ∂t∂A(t)=⎣⎡a11′(t)a21′(t)a31′(t)a12′(t)a22′(t)a32′(t)a13′(t)a23′(t)a33′(t)⎦⎤(1)
这种矩阵向量求导直观来看就是把分散求导聚集起来,用一个符号一次性表示,没有什么复杂的地方,所以我在分类时把它分成了高等数学领域,这篇blog会介绍这种求导方式。 ( 1 ) (1) (1)矩阵求导和下面的 ( 2 ) (2) (2)微分方程并不一样(A是矩阵,u是向量):
(2) ∂ u ∂ t = A u \frac{\partial u}{\partial t}=Au \tag{2} ∂t∂u=Au(2)
( 2 ) (2) (2)在矩阵论中用来求解微分方程,结果大体长这样: u = e A t u ( 0 ) u=e^{At}u(0) u=eAtu(0)。我们也比较容易区分这两种情况, ( 1 ) (1) (1)求导计算, ( 2 ) (2) (2)是微分方程, ( 1 ) (1) (1)中是对A求导, ( 2 ) (2) (2)中A是一个系数矩阵。关于 ( 2 ) (2) (2),我会写一个矩阵的专题单独介绍。
分类
我们通过自变量和因变量来分类矩阵向量求导,自变量和因变量均可以是标量、向量或者矩阵,一共9种情况,见下图,但是向量与矩阵的两种情况,以及矩阵与矩阵的一种情况比较复杂,结果需要用张量(高维矩阵)表示,所以暂未讨论。
| 自变量\因变量 | 标量 | 向量 | 矩阵 |
|---|---|---|---|
| 标量 | 简单 | 同(1) | 同(1) |
| 向量 | 同(1) | 重点讨论 | 复杂 |
| 矩阵 | 同(1) | 复杂 | 复杂 |
向量对标量求导
u ( t ) = [ u 1 ( t ) , u 2 ( t ) , u 3 ( t ) ] u(t)=[u_{1}(t),~u_{2}(t),~u_{3}(t)] u(t)=[u1(t), u2(t), u3(t)]
∂ u ( t ) ∂ t = [ u 1 ′ ( t ) , u 2 ′ ( t ) , u 3 ′ ( t ) ] \frac{\partial u(t)}{\partial t} = [u'_{1}(t) , ~u'_{2}(t),~ u'_{3}(t) ] ∂t∂u(t)=[u1′(t), u2′(t), u3′(t)]
或者
u ( t ) = [ u 1 ( t ) , u 2 ( t ) , u 3 ( t ) ] T u(t)=[u_{1}(t),~u_{2}(t),~u_{3}(t)]^{T} u(t)=[u1(t), u2(t),

本文介绍了矩阵向量求导的几种类型,包括向量对标量、矩阵对标量、标量对向量和标量对矩阵的求导,并提供了相关的公式总结。特别地,文章提到了矩阵向量求导的两种布局:分子布局和分母布局,并通过实例解释了它们的区别。

8236

被折叠的 条评论
为什么被折叠?



