DDPM交叉熵损失函数推导

最新推荐文章于 2026-02-19 13:07:00 发布

原创最新推荐文章于 2026-02-19 13:07:00 发布 · 3.7k 阅读

38 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#概率论 #人工智能

$KL\rm KL$ 散度

由于以下推导需要用到 $KL\rm KL$ 散度，这里先简单介绍一下。
$KL\rm KL$ 散度一般用于度量两个概率分布函数之间的“距离”，其定义如下：
$KL[P(X)∣∣Q(X)]=∑x∈X[P(x)log⁡P(x)Q(x)]=Ex∼P(x)[log⁡P(x)Q(x)]KL\big[P(X)||Q(X)\big]=\sum_{x\in X}\Big[P(x)\log\frac{P(x)}{Q(x)}\Big]=E_{x\sim P(x)}\Big[\log\frac{P(x)}{Q(x)}\Big]$
这里 $P (X)$ 和 $Q (X)$ 是两个概率分布函数，可以看到对于离散型随机变量， $KL\rm KL$ 散度对 $x$ 进行求和；对于连续型随机变量， $KL\rm KL$ 散度对 $x$ 进行积分(期望)。
高斯分布的 $KL\rm KL$ 散度
对于两个单一变量的高斯分布 $p∼N(μ1,σ12)p\sim\mathcal{N}(\mu_1, \sigma_1^2)$ 和 $q∼N(μ2,σ22)q\sim\mathcal{N}(\mu_2,\sigma_2^2)$ 而言，它们的KL散度为
$KL(p,q)=log⁡σ2σ1+σ12+(μ1−μ2)22σ22−12KL(p,q)=\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2}$

似然函数

下方是论文中给出的后向过程 $xt−1\mathbf{x}_{t-1}$ 的分布，其方差为常数。
$pθ(x0:T)=p(xT)∏t=1Tpθ(xt−1∣xt),pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),∑θ(xt,t))p_{\theta}(\mathbf{x}_{0:T})=p(\mathbf{x}_T)\prod_{t=1}^T p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t),\qquad p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)=\mathcal{N}(\mathbf{x}_{t-1};\mu_{\theta}(\mathbf{x}_t,t),\sum_{\theta}(\mathbf{x}_t,t))$
推出扩散模型目标数据分布的似然函数，推出似然函数后才能优化模型。 $pθ(x0)p_{\theta}(\mathbf{x}_0)$ 为目标数据分布，其对数似然下界越大，那么对数似然越大。为了方便推导，这里用其负对数似然 $−log⁡pθ(x0)-\log p_{\theta}(\mathbf{x}_0)$ 推导，其上界越小，负对数似然越小，相对应其对数似然越大。
$\begin{aligned} -\log p_{\theta}(\mathbf{x}_0) & \leq -\log p_{\theta}(\mathbf{x}_0)+D_{KL}(q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)) \qquad(1)\\ & = -\log p_{\theta}(\mathbf{x}_0)+\Bbb{E}_{\mathbf{x}_{1:T}\sim q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})/p_{\theta}(\mathbf{x}_0)}\Big] \quad(2)\\ & = -\log p_{\theta}(\mathbf{x}_0)+\Bbb{E}_q\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}+\log p_{\theta}(\mathbf{x}_0)\Big]\qquad(3)\\ & = \Bbb{E}_{q(\mathbf{x}_{1:T}\mid\mathbf{\mathbf{x}_0})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big]\qquad(4) \end{aligned}$

公式推导

$(1)$ : 不等式右边加上一个 $KL\rm KL$ 散度，由于 $KL\rm KL$ 散度始终大于等于0，所以不等号成立。也即不等式右边是左边的上界，我们只需要优化右边的式子使其达到最小，那么等式左边的对数似然就达到最小。
$(1)→(2)(1)\rightarrow(2)$ : 这一步是将 $KL\rm KL$ 散度展开，可以见上方 $KL\rm KL$ 散度的定义，定义中 $P (x)$ 相当于 $q(x1:T∣x0)q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ ， $Q (x)$ 相当于 $pθ(x1:T∣x0)p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 。将 $Q (x)$ 按照条件概率公式展开： $pθ(x1:T∣x0)=pθ(x1:T,x0)/pθ(x0)=pθ(x0:T)/pθ(x0)p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{1:T},\mathbf{x}_0)/p_{\theta}(\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{0:T})/p_{\theta}(\mathbf{x}_0)$ ，这样就得到了第 $(2)$ 步的式子。
$(2)→(3)(2)\rightarrow(3)$ : 将 $log⁡\log$ 进行展开即可。
$(3)→(4)(3)\rightarrow(4)$ : 由于该期望是针对分布 $q$ 的，则 $log⁡pθ(x0)\log p_{\theta}(\mathbf{x}_0)$ 相对于 $q$ 就是常数。所以 $Eq[log⁡pθ(x0)]=log⁡pθ(x0)\Bbb{E}_q\big[\log p_{\theta}(\mathbf{x}_0)\big]=\log p_{\theta}(\mathbf{x}_0)$ ，然后和前面的 $−log⁡pθ(x0)-\log p_{\theta}(\mathbf{x}_0)$ 约去，就得到了式子 $(4)$ 。

推导结束

然后我们将不等式左边的 $−log⁡pθ(x0)-\log p_{\theta}(\mathbf{x}_0)$ 套上一个关于分布 $q(x0)q(\mathbf{x}_0)$ 的期望，得到 $−Eq(x0)log⁡pθ(x0)-\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$ (交叉熵，也即loss)；相应的，不等式右边也要加上一个 $x0\mathbf{x}_0$ ，则由 $Eq(x1:T∣x0)\Bbb{E}_{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}$ 变为 $Eq(x0:T)\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。如果我们想最小化loss，也就是最小化 $Eq(x0:T)\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。
$LVLB=Eq(x0:T)[log⁡q(x1:T∣x0)pθ(x0:T)]≥−Eq(x0)log⁡pθ(x0)\rm Let\text{ }\it L_{\rm VLB} \it = \Bbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big]\geq -\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$

化简loss上界

$\begin{aligned} L_{\rm VLB} \it & = \Bbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big] \qquad (1)\\ & = \Bbb{E}\Big[\log\frac{\prod_{t=1}^Tq(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_T)\prod_{t=1}^Tp_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)}\Big] \qquad(2)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=1}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)} \Big] \qquad(3)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)} + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(4)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \Big(\frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } \cdot \frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)} \Big) + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(5)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}+\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(6)\\ & = \Bbb{E}_q \Big[-\log p_{\theta}(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } + \log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_{1}\mid\mathbf{x}_0)}+\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)} \Big] \qquad(7)\\ & = \Bbb{E}_q \Big[\log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_T)} + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t) } - \log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1) \Big] \qquad(8)\\ & = \Bbb{E}_q[\underbrace{D_{\rm KL}(q(\mathbf{x}_T\mid\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_T))}_{L_T}+\sum_{t=2}^T\underbrace{D_{\rm KL}(q(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0)\parallel p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t))}_{L_{t-1}}-\underbrace{\log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}_{L_0}]\qquad(9) \end{aligned}$

公式推导

$(1)→(2)(1)\rightarrow(2)$ : 将条件概率展开。由于 $q(x1:T∣x0)q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 是扩散过程，是从 $x0\mathbf{x}_0$ 逐步推导 $xT\mathbf{x}_T$ 得到过程，其符合马尔科夫假设，故 $q(x1:T∣x0)=q(x1∣x0)⋅q(x2∣x1)⋅...⋅q(xT∣xT−1)=∏t=1Tq(xt∣xt−1)q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=q(\mathbf{x}_1\mid\mathbf{x}_0)\cdot q(\mathbf{x}_2\mid\mathbf{x}_1)\cdot ... \cdot q(\mathbf{x}_T\mid\mathbf{x}_{T-1})=\prod_{t=1}^Tq(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ ；对于 $pθ(x0:T)p_{\theta}(\mathbf{x}_{0:T})$ ，我们先将其根据条件概率转换为 $pθ(xT)pθ(x0:T−1∣xT)p_{\theta}(\mathbf{x}_T)p_{\theta}(\mathbf{x}_{0:T-1}\mid\mathbf{x}_T)$ ，然后将后面那一项和 $q$ 一样，展开即可。
$(2)→(3)(2)\rightarrow(3)$ : 将 $log⁡\log$ 进行展开，连乘展开后转换为求和。
$(3)→(4)(3)\rightarrow(4)$ : 将 $log⁡q(x1∣x0)pθ(x0∣x1)\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 单独拿出来计算。
$(4)→(5)(4)\rightarrow(5)$ : 回忆一下，之前在讲逆扩散过程的时候我们得到了这样一个式子 $q(xt−1∣xt,x0)=q(xt∣xt−1)q(xt−1∣x0)q(xt∣x0)q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)=q(\mathbf{x}_{t}\mid\mathbf{x}_{t-1})\frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}{q(\mathbf{x}_{t}\mid\mathbf{x}_0)}$ ，通过这个式子，我们就能得到 $q(xt∣xt−1)q(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ 的表达式，然后替换即可。
$(5)→(6)(5)\rightarrow(6)$ : 将 $log⁡\log$ 进行展开。
$(6)→(7)(6)\rightarrow(7)$ : $∑t=2Tlog⁡q(xt∣x0)q(xt−1∣x0)=log⁡(q(x2∣x0)q(x1∣x0)⋅q(x3∣x0)q(x2∣x0)⋅...⋅q(xT∣x0)q(xT−1∣x0))=log⁡q(xT∣x0)q(x1∣x0)\sum_{t=2}^T\log\frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}=\log\Big(\frac{q(\mathbf{x}_2\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}\cdot\frac{q(\mathbf{x}_3\mid\mathbf{x}_0)}{q(\mathbf{x}_2\mid\mathbf{x}_0)}\cdot...\cdot\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_T-1\mid\mathbf{x}_0)}\Big)=\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}$
$(7)→(8)(7)\rightarrow(8)$ : $log⁡q(xT∣x0)q(x1∣x0)+log⁡q(x1∣x0)pθ(x0∣x1)=log⁡q(xT∣x0)−log⁡pθ(x0∣x1)\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)} + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log q(\mathbf{x}_T\mid\mathbf{x}_0)-\log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)$ ，然后将 $log⁡q(xT∣x0)\log q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $−log⁡pθ(xT)-\log p_{\theta}(\mathbf{x}_T)$ 合并成 $log⁡q(xT∣x0)pθ(xT)\log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_T)}$
$(8)→(9)(8)\rightarrow(9)$ : 对于 $L_T$ ， $q(xT∣x0)q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $pθ(xT)p_{\theta}(\mathbf{x}_T)$ 都是不含参的，前者 $q$ 分布是由 $βt\beta_t$ 求出的，不含有任何参数；后者是一个各向同性的高斯分布。故 $L_T$ 是不含参的，在优化时可以将其舍弃。对于 $L_{t-1}$ ，参见 $KL\rm KL$ 散度定义，可以将其表示为 $KL\rm KL$ 散度，如果这里我们将 $t$ 取1，其转化为 $log⁡q(x0∣x1,x0)pθ(x0∣x1)=log⁡1pθ(x0∣x1)\log\frac{q(\mathbf{x}_0\mid\mathbf{x}_1,\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log\frac{1}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 。故当 $t$ 为1时，得到的结果就是 $L_{t-1}$ 后面那一项 $L_0$ ，故我们可以将其合并。故我们只需要优化 $L_{t-1}$ 即可。

推导结束

在论文中，作者将分布 $pθ(xt−1∣xt)p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 的方差看作与 $β\beta$ 相关的常数，那么可训练的参数就存在于其均值当中。在 $L_{t-1}$ 中， $q(xt−1∣xt,x0)q(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0)$ 是一个高斯分布，其方差和均值我们已经在之前后向过程推导中求出，均值为 $μ~t(xt)\tilde{\mu}_t(\mathbf{x}_t)$ ，方差为和 $βt\beta_t$ 有关的常数。而 $pθ(xt−1∣xt)p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 也是我们假设的高斯分布，它的方差也是常数，均值为 $μθ(xt,t)\mu_{\theta}(\mathbf{x}_t,t)$ ，所以参数只在 $μθ\mu_{\theta}$ 当中。对于这两个高斯分布，我们可以运用高斯分布的 $KL\rm KL$ 散度公式，其中的方差我们可以不考虑。则我们可以得到如下的式子：
$Lt−1=Eq[12σt2∥μ~t(xt,x0)−μθ(xt,t)∥2]+CL_{t-1}=\Bbb{E}_q \Big[\frac{1}{2\sigma_t^2} \lVert \tilde{\mu}_t(\mathbf{x}_t,\mathbf{x}_0)-\mu_{\theta}(\mathbf{x}_t,t)\rVert^2 \Big]+C$

由这个式子，我们优化目标就很明确了，我们要优化 $μθ\mu_{\theta}$ ，让其无线逼近于 $μ~t\tilde{\mu}_t$ ，这样才能使 $L_{t-1}$ 最小。首先我们将 $μ~t(xt)\tilde{\mu}_t(\mathbf{x}_t)$ 代入上述的式子中，原式中的 $z~t\tilde{z}_t$ 用 $ϵ\epsilon$ 来表示， $xt\mathbf{x}_t$ 用 $xt(x0,ϵ)\mathbf{x}_t(\mathbf{x}_0,\epsilon)$ 替换，就能得到下方第二个等号的式子。
$\begin{aligned} L_{t-1}-C & = \Bbb{E}_{\mathbf{x}_0,\epsilon} \Bigg[\frac{1}{2\sigma_t^2}\Big\lVert\tilde{\mu}_t\Big(\mathbf{x}_t(\mathbf{x}_0,\epsilon),\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{x}_t(\mathbf{x}_0,\epsilon)-\sqrt{1-\bar{\alpha}_t}\epsilon)\Big)-\mu_{\theta}(\mathbf{x}_t(\mathbf{x}_0,\epsilon),t)\Big\rVert^2 \Bigg] \\ & = \Bbb{E}_{\mathbf{x}_0,\epsilon} \Bigg[\frac{1}{2\sigma_t^2}\Big\lVert\frac{1}{\sqrt{\alpha}_t}\Big(\mathbf{x}_t(\mathbf{x}_0,\epsilon)-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon \Big)-\mu_{\theta}(\mathbf{x}_t(\mathbf{x}_0,\epsilon),t)\Big\rVert^2 \Bigg] \end{aligned}$
这里我们的 $xt\mathbf{x}_t$ 是已知的，那么为了使 $L_{t-1}$ 最小，我们可以将 $μθ(xt,t)\mu_{\theta}(\mathbf{x}_t,t)$ 表示为 $μ~t\tilde{\mu}_t$ 的一个波动，其中的 $ϵ\epsilon$ 是未知的，则我们可以训练一个网络来预测 $ϵ\epsilon$ 。
$μθ(xt,t)=μ~t(xt,1αˉt(xt−1−αˉtϵθ(xt)))=1αt(xt−βt1−αˉtϵθ(xt,t))\mu_{\theta}(\mathbf{x}_t,t)=\tilde{\mu}_t\Big(\mathbf{x}_t,\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\epsilon_{\theta}(\mathbf{x}_t)}) \Big)=\frac{1}{\sqrt{\alpha_t}}\Big(\mathbf{x}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_{\theta}(\mathbf{x}_t,t) \Big)$
于是 $L_{t-1}$ 可以简化为如下形式
$Ex0,ϵ[βt22σt2αt(1−αˉt)∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]\Bbb{E}_{\mathbf{x_0},\epsilon}\Big[ \frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]$
作者又发现，将系数丢掉，训练更加稳定质量更好，于是就得到了下方的 $LsimpleL_{\rm simple}$
$Lsimple(θ):=Et,x0,ϵ[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]L_{\rm simple}(\theta):=\Bbb{E}_{t,\mathbf{x_0},\epsilon}\Big[ \lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]$