使用张量进行去噪的理解

最新推荐文章于 2026-03-11 00:47:56 发布

原创最新推荐文章于 2026-03-11 00:47:56 发布 · 1.9k 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

张量专栏收录该内容

2 篇文章

订阅专栏

什么是张量

张量是多维数组的泛概念。一维数组我们通常称之为向量，二维数组我们通常称之为矩阵，但其实这些都是张量的一种。以此类推，我们也会有三维张量、四维张量以及五维张量。那么零维张量是什么呢？其实零维张量就是一个数。

张量的基本操作

两个张量的内积

$<\chi,y>=\sum_{i_1=1}^{I_1} \sum_{i_2=1}^{I_2} ... \sum_{i_N=1}^{I_N} x_{i_1 i_2 ... i_N} y_{i_1 i_2 ... i_N}$

介绍

$image[I_{clean}]+noise[\eta]$

算法描述

张量简介

高阶奇异值分解（HOSVD）

什么是奇异值分解

奇异值分解最早是Beltrami与1873年对实正方矩阵提出来的。Beltrami从双线性函数：
$f(x,y)=x^TAy,A\in \R^{n \times n}$

出发，通过引入线性变换 $\xi$ ， $\eta$ ，将双线性函数变为 $f(x,y)=ξTSηf(x,y)=\xi^TS\eta$ ，其中：
$S=U^T A V$

矩阵的奇异值分解
令 $\in \R^{m \times n}$ ，则存在正交矩阵 $\in \R^{m \times m}$ 和 $\in \R^{n \times n}$ 使得：
$\Sigma V^T$
式中 $Σ=[Σ1ooo]\Sigma=\left[ \begin{array}{cc} \Sigma_1&o\\ o&o \end{array} \right]$ ，且 $Σ1=diag(σ1,σ2,⋅⋅⋅,σr)\Sigma_1=diag(\sigma_1,\sigma_2,\cdot \cdot \cdot,\sigma_r)$ ，其对角元素按照顺序
$\sigma_1 \geqslant \sigma_2 \geqslant \cdot \cdot \cdot \sigma_r >0,~~~r=rank(A)$

排序。
酉矩阵 设 $\in C^{n \times n}$ ，若A满足 $A^HA=I$ ，则称A为酉矩阵。
奇异值分解的理论证明
设 $\in C_r^{m \times n}(r>0)$ ，则存在m阶酉矩阵U和n阶酉矩阵V使得：
$U^HAV=\begin{pmatrix}\Sigma&o\\o&o\end{pmatrix}$

式中： $Σ=diag(σ1,σ2,⋅⋅⋅,σr),σi\Sigma=diag(\sigma_1,\sigma_2,\cdot \cdot \cdot,\sigma_r),\sigma_i$ 为A的非零奇异值。而：
$A=U\begin{pmatrix}\Sigma&o\\o&o\end{pmatrix}V^H$

称为A的奇异值分解。
证明：由于 $A^HA$ 为Hermite阵，则存在n阶酉矩阵V使得：
$V^HA^HAV=diag(\lambda_1,\lambda_2,\cdot \cdot \cdot,\lambda_n)=\begin{pmatrix}\Sigma^2&o\\o&o\end{pmatrix}$

将V分块为：
$V=(V_1,V_2)~~~~(V_1 \in C^{n \times r},V_2 \in C^{n \times (n-r)})$

得：
$V_1^HA^HAV_1=\Sigma^2,V_2^HA^HAV_2=0$

于是：
$\Sigma^{-1} V_1^HA^HAV_1 \Sigma^{-1}=I_r,(AV_2)^HAV_2=0$

从而 $AV_2=0$ 。又记 $U1=AV1Σ−1U_1=AV_1 \Sigma^{-1}$ ，则 $U_1^HU_1=I$ ，即 $U_1$ 的r个列是两两正交的单位向量。取 $U2∈Cm×(m−r)U_2 \in C^{m \times (m-r)}$ 使 $U=(U_1,U_2)$ 为m阶酉矩阵，即 $U_2^HU_1=0,U_2^HU_2=I_{m-r}$ 。则有：
$U^HAV=\begin{pmatrix}U_1^H\\ \\U_2^H\end{pmatrix}A\begin{pmatrix}V_1,V_2\end{pmatrix}= \begin{pmatrix}U_1^HAV_1&U_1^HAV_2\\ \\U_2^HAV_1&U_2^HAV_2\end{pmatrix}= \begin{pmatrix}U_1^H(U_1 \Sigma)&0\\ \\U_2^H(U_1 \Sigma)&0\end{pmatrix}= \begin{pmatrix}\Sigma&0\\ \\0&0\end{pmatrix}$

奇异值分解的应用计算
求矩阵 $A=(101110)A=\begin{pmatrix}1&0&1\\1&1&0\end{pmatrix}$ 的奇异值分解。
解：因为：
$A^TA=\begin{pmatrix}2&1&1\\1&1&0\\1&0&1\end{pmatrix}$

所以 $A^TA$ 的特征值为 $λ1=3,λ2=1,λ3=0,\lambda_1=3,\lambda_2=1,\lambda_3=0,$ 对应的特征向量为：
$p_1=\begin{pmatrix}2\\1\\1\end{pmatrix}, p_2=\begin{pmatrix}0\\-1\\1\end{pmatrix}, p_3=\begin{pmatrix}-1\\1\\1\end{pmatrix}$

标准化得：
$V=\begin{pmatrix}\frac{2}{\sqrt{6}}&0&-\frac{1}{\sqrt{3}}\\ \\ \frac{1}{\sqrt{6}}&-\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{3}}\\ \\ \frac{1}{\sqrt{6}}&\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{3}}\end{pmatrix}$

使得：
$V^HA^HAV=\begin{pmatrix}3&&\\&1&\\&&0\end{pmatrix}=\begin{pmatrix}\Sigma^2 &\\&0\end{pmatrix}$

计算：
$U_1=AV_1 \Sigma^{-1}=\begin{pmatrix}1&0&1\\ \\1&1&0\end{pmatrix} \begin{pmatrix}\frac{2}{\sqrt{6}}&0\\ \\ \frac{1}{\sqrt{6}}&-\frac{1}{\sqrt{2}}\\ \\ \frac{1}{\sqrt{6}}&\frac{1}{\sqrt{2}}\end{pmatrix} \begin{pmatrix}\frac{1}{\sqrt{3}}&0\\ \\0&1\end{pmatrix}= \begin{pmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\ \\ \frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{pmatrix}$

则 $U=U_1$ 是酉矩阵。故 $A$ 的奇异值分解为：
$A=U(\Sigma~~~~0)V^H= \begin{pmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\ \\ \frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{pmatrix} \begin{pmatrix}\sqrt{3}&0&0\\ \\0&1&0\end{pmatrix} \begin{pmatrix} \frac{2}{\sqrt{6}}&\frac{1}{\sqrt{6}}&\frac{1}{\sqrt{6}}\\ \\ 0&-\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\ \\ -\frac{1}{\sqrt{3}}&\frac{1}{\sqrt{3}}&\frac{1}{\sqrt{3}} \end{pmatrix}$

什么是高阶奇异值分解

Tucker分解，又称高阶奇异值分解(higher-order SVD)。
Tucker分解与Tucker算子密切相关，而Tucker算子是张量与矩阵的多模态乘法的一种有效表示。
定义令 $\in \Bbb K^{J_1 \times J_2 \times \cdot \cdot \cdot \times J_N}$ ，矩阵 $U(n)∈KIn×JnU^{(n)} \in \Bbb K^{I_n \times J_n}$ ，其中 $\in \{ 1, \cdot \cdot \cdot N \}$ ，则Tucker算子定义为：

$\llbracket g;U^{(1)},U^{(2)}, \cdot \cdot \cdot ,U^{(N)} \rrbracket =g \times_1 U^{(1)} \times_2 U^{(2)} \cdot \cdot \cdot \times_N U^{(N)}$

其结果是一个 $N$ 阶 $I1×I2×⋅⋅⋅×INI_1 \times I_2 \times \cdot \cdot \cdot \times I_N$ 张量。

N阶奇异值分解 每一个 $I1×I2×⋅⋅⋅×INI_1 \times I_2 \times \cdot \cdot \cdot \times I_N$ 实张量 $χ\chi$ 均可以分解为n-模式积：

$\chi =g \times_1 U^{(1)} \times_2 U^{(2)} \cdot \cdot \cdot \times_N U^{(N)}=\llbracket g;U^{(1)},U^{(2)}, \cdot \cdot \cdot ,U^{(N)} \rrbracket$

或

$x_{i_1 i_2 \cdot \cdot \cdot i_N}=\sum_{j_1=1}^{J_1} \sum_{j_2=1}^{J_2} \cdot \cdot \cdot \sum_{j_N=1}^{J_N} g_{i_1 i_2 \cdot \cdot \cdot i_N} u_{i_1 j_1}^{(1)} u_{i_2 j_2}^{(2)} \cdot \cdot \cdot u_{i_N j_N}^{(N)}$

其中
(1) $U(n)=[u1(n),⋅⋅⋅,uJn(n)]U^{(n)}=[u_1^{(n)}, \cdot \cdot \cdot ,u_{J_n}^{(n)}]$ 是一个 $In×JnI_n \times J_n$ 半正交矩阵，即 $U^{(n)T} U^{(n)}=I_{J_n}$ ，且 $Jn⩽InJ_n \leqslant I_n$ 。
（知识补充：实矩阵 $Qm×nQ_{m \times n}$ ，它只满足 $QQ^T=I_m$ 或者 $Q^TQ=I_m$ ，Q被称为半正交矩阵）
(2)核心张量 $g$ 是一个 $J1×J2×⋅⋅⋅×JNJ_1 \times J_2 \times \cdot \cdot \cdot \times J_N$ 张量，其子张量 $gjn=αg_{j_n= \alpha}$ 是固定指标 $jn=αj_n= \alpha$ 不变所得到的张量 $χ\chi$ 。子张量具有以下两个性质：
全正交性 $α≠β\alpha \neq \beta$ 的两个子核心张量 $gjn=αg_{j_n= \alpha}$ 和 $gjn=βg_{j_n= \beta}$ 正交

$\langle g_{j_n= \alpha} g_{j_n= \beta}\rangle =0，\forall \alpha \neq \beta，n=1,\cdot \cdot \cdot,N$

排序
$\parallel g_{i_n=1} \parallel_F \geq \parallel g_{i_n=2} \parallel_F \geq \cdot \cdot \cdot \geq \parallel g_{i_n=N} \parallel_F$

高阶奇异值分解的具体计算过程

N阶张量的Tucker分解可以写成一个统一的数学模型：

$\chi=f(U^{(1)},U^{(2)},\cdot \cdot \cdot,U^{(N)})+ \varepsilon$

式中 $U(n),n=1,⋅⋅⋅,NU^{(n)},n=1,\cdot \cdot \cdot,N$ 为分解的因子或分量矩阵， $ε\varepsilon$ 为N阶噪声或误差张量。因此，因子矩阵可以通过下列优化问题求得：

$(U^(1),⋅⋅⋅,U^(N))=arg min⁡U(1),⋅⋅⋅,U(N)∥χ−f(U(1),U(2),⋅⋅⋅,U(N))∥22 (\hat{U}^{(1)},\cdot \cdot \cdot,\hat{U}^{(N)}) = \argmin_{U^{(1)},\cdot \cdot \cdot,U^{(N)}} \parallel \chi-f(U^{(1)},U^{(2)},\cdot \cdot \cdot,U^{(N)}) \parallel_2^2$

这是一个N个变元耦合在一起的优化问题。求解这类耦合优化问题的有效方法是交替最小二乘(ALS)算法。

Tucker分解得交替最小二乘算法的基本思想

在第k+1次迭代中，利用在k+1次迭代中已更新的因子矩阵 $Uk+1(1),⋅⋅⋅,Uk+1(i−1)U_{k+1}^{(1)},\cdot \cdot \cdot,U_{k+1}^{(i-1)}$ 和在k此更新过的因子矩阵 $Uk+1(i+1),⋅⋅⋅,Uk+1(N)U_{k+1}^{(i+1)},\cdot \cdot \cdot,U_{k+1}^{(N)}$ ，求因子矩阵 $U^{(1)}$ 的最小二乘解：

$U^k+1(i)=arg min⁡U(i)∥χ−f(Uk+1(1),⋅⋅⋅,Uk+1(i−1),U(i),Uk+1(i+1),⋅⋅⋅,Uk+1(N))∥22 \hat{U}_{k+1}^{(i)}=\argmin_{U^{(i)}} \parallel \chi-f(U_{k+1}^{(1)},\cdot \cdot \cdot,U_{k+1}^{(i-1)},U^{(i)},U_{k+1}^{(i+1)},\cdot \cdot \cdot,U_{k+1}^{(N)}) \parallel_2^2$

其中 $i=1,⋅⋅⋅,Ni=1,\cdot \cdot \cdot,N$ 。对 $k=1,2,⋅⋅⋅k=1,2,\cdot \cdot \cdot$ ，交替使用最小二乘法，直至所有因子矩阵收敛。
下面以张量的矩阵化的水平展开为对象，讨论Tucker3分解的优化问题的求解

$\min_{A,B,C,G^{(P \times QR)}} \parallel X^{(I \times JK)}-AG^{(P \times QR)} (C \otimes B)^T \parallel_2^2$

根据交替最小二乘的原理，假定模式-2矩阵B、模式-3矩阵C和核心张量g的水平展开均固定，则上述优化问题就解耦为仅含模式-1矩阵A的优化问题：

$\min_{A} \parallel X^{(I \times JK)}-AG^{(P \times QR)} (C \otimes B)^T \parallel_2^2$

相当于求解矩阵 $X(I×JK)=AG(P×QR)(C⊗B)TX^{(I \times JK)}=AG^{(P \times QR)}(C \otimes B)^T$ 的最小二乘解。在矩阵方程的两边右乘矩阵 $\otimes B)$ ，得：

$X^{(I \times JK)}(C \otimes B)=AG^{(P \times QR)} (C \otimes B)^T (C \otimes B)$

若对上式左边得矩阵进行奇异值分解 $X(I×JK)(C⊗B)=U1S1V1TX^{(I \times JK)}(C \otimes B)=U_1S_1V_1^T$ ，则可取前P个左奇异向量作为矩阵A得估计结果 $A^=U1(:,1:P)\hat{A}=U_1(:,1:P)$ 。这一运算可以简洁表示为 $[A,S,T]=SVD[X(I×JK)(C⊗B),P][A,S,T]=SVD[X^{(I \times JK)}(C \otimes B),P]$ 。

交替最小二乘算法(alternating least square,ALS)

交替最小二乘方法最早由 Paatero与 Tapper用于非负矩阵分解。由于这种方法约束矩阵是非负的，所以现在习惯称为交替非负最小二乘算法。
非负矩阵分解 $XI×J=AI×KSK×JX_{I \times J}=A_{I \times K}S_{K \times J}$ 的优化问题：

$\min_{A,S} \frac{1}{2} \parallel X-AS \parallel_F^2 ~~subject~~to~~ A,S \geq0$

可以分解为两个交替非负最小二乘子问题：

$\min_{S \geq 0}f_1(S)=\frac{1}{2} \parallel AS-X \parallel_F^2 ~~(A固定) \\ ANLS2 ~~~~ \min_{A \geq 0}f_1(A^T)=\frac{1}{2} \parallel S^TA^T-X^T \parallel_F^2 ~~（S固定）$

这两个交替非负最小二乘子问题相当于使用最小二乘方法交替求解矩阵方程 $A S = X$ 和 $S^TA^T=X^T$ ，其最小二乘解分别为：

$S=P_+((A^TA)^{\dagger} A^TX) \\ A^T=P_+((SS^T)^{\dagger} SX^T)$

当A或S在迭代过程中奇异时，算法将无法收敛。

约束非负矩阵分解（constrained nonnegative matrix factorization,CNMF）

$\min_{A,S} \frac{1}{2}(\parallel X-AS \parallel_F^2+\alpha \parallel A \parallel_F^2+\beta \parallel S \parallel_F^2) ~~subject~~to~~A,S \geq0$

式中， $α≥0\alpha \geq 0$ 和 $β≥0\beta \geq 0$ 是两个正则化参数，分别起到压制 $∥A∥F2\parallel A \parallel_F^2$ 和 $∥S∥F2\parallel S \parallel_F^2$ 的作用。

正则化非负矩阵分解问题可以分解为两个交替正则化非负最小二乘（ARNLS）问题：

$\min_{S \in \R_{+}^{J \times K}} J_1(S)=\frac{1}{2} \parallel AS-X \parallel_F^2+\frac{1}{2} \beta\parallel S \parallel_F^2 ~~(A固定) \\ ARNLS2 ~~ \min_{A \in \R_{+}^{I \times J}} J_2(A^T)=\frac{1}{2} \parallel S^TA^T-X ^T\parallel_F^2+\frac{1}{2}\alpha \parallel A \parallel_F^2 ~~(S固定)$

由矩阵微分
$dJ_1(S)=\frac{1}{2}d(tr[(AS-X)^T(AS-X)]+\beta tr(S^TS)) \\=tr((S^TA^TA-X^TA+\beta S^T)dS) \\ dJ_2(A^T)=\frac{1}{2}d(tr[(AS-X)(AS-X)^T]+\alpha tr(A^TA)) \\=tr((ASS^T-XS^T+\alpha A)dA^T)$