Diffusion Illusions: Hiding Images in Plain Sight论文理解

最新推荐文章于 2026-01-01 10:38:03 发布

原创最新推荐文章于 2026-01-01 10:38:03 发布 · 1.2k 阅读

14 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能 #算法 #AIGC

1、问题定义

文章提出了一个关于计算生成特殊图像的问题，这些图像被称为“prime”图像，它们在以特定方式物理排列和查看时会产生光学幻觉。具体来说，问题定义包括以下几个关键点：

幻觉的正式定义：文章为生成幻觉的问题提供了一个正式的定义，将幻觉描述为由一组物理图像（称为prime图像）在多种方式下查看或排列时所产生的情况，每种排列方式都产生一个独特的感知图像（称为derived图像）。
图像空间：定义了一个prime图像空间P，代表可以物理实现的视觉刺激，以及一个derived图像空间D，代表人类对场景的视图。在实践中，这两个空间都使用2D RGB图像来表示。
排列操作：描述了排列操作，这些操作应用于一组prime图像上，以产生一个单一的derived图像。这些操作可以是简单的旋转、叠加，或者是更复杂的变换，如通过多个透明度过滤光线。
幻觉过程：正式地，幻觉过程被描述为一个由n个prime图像组成的元组{p1, p2, …, pn}和一个由m个排列操作组成的元组A={a1, a2, …, am}，其中每个aj: P^n → D，代表将所有prime图像排列以获得单一derived图像dj的过程。这样，幻觉产生了一个由m个derived图像组成的元组{d1, d2, …, dm}。
幻觉的分类：文章提到了现有的幻觉类型，包括单一2D图像或3D对象作为prime图像，以及它们的排列操作，如2D或3D空间中的简单平移和旋转。
创新点：文章强调，与现有的模糊图像文献相比，所提出的幻觉过程不仅包括在完全相同的方式下查看时具有多种解释的图像，还包括涉及多个组合图像的情况。
生成幻觉的步骤：文章提出了将创建幻觉的过程分为两个步骤：首先，选择一个prime图像域并定义并建模排列操作；其次，搜索prime图像域以找到在每种排列方式下产生期望derived图像的图像。

2、模型细节

Diffusion Illusions框架是一个用于生成多种类型视觉幻觉的灵活工具。这个框架允许用户以前所未有的控制度（例如，逼真的图像、艺术风格，甚至是如QR码等任意信息）来定制幻觉效果。以下是Diffusion Illusions框架的详细介绍，包括其关键组件和优化过程：
模型架构 Diffusion Illusions框架是一个用于生成多种类型视觉幻觉的灵活工具。这个框架允许用户以前所未有的控制度（例如，逼真的图像、艺术风格，甚至是如QR码等任意信息）来定制幻觉效果。以下是Diffusion Illusions框架的详细介绍，包括其关键组件和优化过程：

3. 方法

3.1 Prime Images（原始图像）

原始图像是最终想要生成的物理图像，当以多种方式查看或排列时，它们将触发幻觉。在框架中，原始图像被表示为512×512维度的RGB图像，并使用傅里叶特征网络（Fourier Feature Networks, FFN）以参数形式表示。

3.2 Arrangement Processes（排列过程）

排列过程A的作用是对一组原始图像进行操作，并产生独特的输出，即派生图像。每个独特的原始图像序列通过排列操作产生一个不同的派生图像。

3.3 Diffusion Illusion Optimization（扩散幻觉优化）

选择了三种不同的幻觉风格后，接下来讨论学习最优原始图像的过程。给定完全可微的排列操作（在物理世界中也可实现），利用两种类型的损失在连续阶段为派生图像提供合适的对齐信号，进而更新原始图像。

3.3.1 Score Distillation Loss（得分蒸馏损失）

得分蒸馏损失是一种广泛使用的技术，用于将图像与文本提示等外部条件对齐。在每个图像更新步骤中，随机选择去噪过程的一个时间步τ，向派生图像di添加与时间步τ成比例的噪声 $ητ{\eta}_\tau$ ，并应用以文本提示ti为条件的去噪过程，以获得估计的噪声 $η^τ\hat{\eta}_\tau$ 。估计噪声 $η^τ\hat{\eta}_\tau$ 与实际噪声 $ητ{\eta}_\tau$ 之间的差异（以平均绝对误差实现）提供了派生图像di与目标描述ti之间差异的信号。

公式：
$η^τ=Fu(di+ητ,τ,Ft(ti)) \hat{\eta}_\tau = F_u(d_i + \eta_\tau, \tau, F_t(t_i))$
$LSDi(ti,di)=∥ητ−η^τ∥1 L_{SD}^i(t_i, d_i) = \|\eta_\tau - \hat{\eta}_\tau\|_1$

3.3.2 Dream Target Loss（梦想目标损失）

梦想目标损失是得分蒸馏损失的新颖优化版本，适用于原始图像难以跟随得分蒸馏损失的梯度的情况。梦想目标损失定期应用条件图像到图像过程 ( z_i = G(t_i, d_i) ) 为每个派生图像di获得目标图像zi，然后使用结构图像相似性损失（LSSIM）和像素级均方误差损失（L2）的组合，逐渐将每个派生图像di拉向其目标图像zi。

公式：
$z_i = G(t_i, d_i)$

$L_{DT}^i(z_i, d_i) = L_{SSIM}(z_i, d_i) + L_2(z_i, d_i)$

3.3.3 Visual Prompt（视觉提示）

可选地，一个或多个ti可以作为特定的目标图像而不是文本提示给出，这允许用户隐藏目标，如QR码或文本块。

3.4 Fabrication

翻转幻觉在现实生活中很容易制造，只需要一个打印机。隐藏层叠和旋转层叠幻觉是通过在彩色激光打印机上将它们的原始图像打印在透明胶片上，然后进行覆膜以防止刮擦来创建的。

4. 实验

文章通过定性和定量的评估来验证Diffusion Illusions框架的有效性，并展示了在现实世界中成功制造的幻觉。

4.1 定性评估

展示了选择的三种幻觉风格——Flip Illusion（翻转幻觉）、Rotation Overlay Illusion（旋转覆盖幻觉）和Hidden Overlay Illusion（隐藏覆盖幻觉）的可视化结果。有关更多交互式示例，可以在https://diffusionillusions.com中得到。

4.2 定量评估

接下来，定量地对Diffusion Illusions生成的Hidden Overlay Illusion在多个方面进行基准测试，并展示所提出的框架的泛化能力和鲁棒性。附录B中也有其他幻觉和更多细节的评估。

图像生成协议：作者设计了一个管道，它能够随机且自动地构建多样化的文本提示。该管道依赖于两组文本提示。

第一组Ts是句子集，每个句子描述了图像的独特艺术风格，并包含一个主题标记，代表句子的潜在主题。
第二组To是不同的主题，如‘dog’、‘cat’、‘car’等。在生成具有特定风格ts的图像时，从To中均匀地抽取五个独特的主题to i，其中i ∈ {1, …, 5}。然后，我们将ts中的主题标记替换为to i以构建文本提示ti。最后，使用t1, …, t5来指导派生图像的生成。为了全面评估，整个管道对每种风格ts重复N次，生成N组幻觉图像。在实践中，文中设置|Ts| = 4，To是PASCAL VOC中除了‘person’以外的所有对象类别集合（|To| = 19），N = 64。

评估指标：

可控性（Controllability）：生成图像与文本提示的一致性。对于每个生成的图像及其对应的文本提示，测量从预训练的CLIP模型中提取的图像嵌入和文本嵌入之间的平均余弦相似度。
多样性（Diversity）：在同一提示条件下生成的图像的多样性。对于由相同文本提示生成的图像，基于两个视觉嵌入独立计算两个Vendi分数。
美学（Aesthetics）：图像的视觉吸引力和艺术质量的评估。对于每个图像，使用在AVA数据集上预训练的AVA LAION-Aesthetics Predictor V2来估计一个从0到10的美学分数。
独立性（Independence）：特别是对于幻觉场景提出了一个新的指标——独立性分数。直观地说，每个图像应该坚持其对应的文本提示，同时不受同一组中其他文本提示的干扰。这种属性被称为独立性，它与可控性不同，因为独立性不仅反映了图像与其对应文本提示的相似性，还反映了图像与其他图像的文本提示的不相似性。换句话说，这个属性关注的是原始图像能够多好地“隐藏”覆盖图像，或者人们从单个原始图像推断出覆盖图像的难度。

方法：实验的基线方法是使用得分蒸馏损失独立地为一步生成目标图像的标准SDXL。作者对四种方法变体（命名为A、B、C和D）进行了基准测试。方法C是的默认方法。它涉及500步得分蒸馏损失，然后是8步梦想目标损失，并分别应用相对权重[1,1,1,1,3]——优先考虑质量派生的隐藏图像。此外，方法A使用Stable Diffusion 1.5而不是所有其他方法使用的SDXL。方法B对所有派生图像使用相等的权重，使用权重[1,1,1,1,1]。最后，方法D使用4000步得分蒸馏损失后跟1步梦想目标损失进行平滑处理，以评估仅使用得分蒸馏损失在这项任务中的能力。为了公平起见，所有方法都被限制在单个NVIDIA A100 GPU上的15分钟时间窗口内运行。

结果：对于所有指标，文中所提出的方法在除Vendi分数（多样性）外的所有指标上都显著优于基线。作者认为，由于在生成幻觉时应用了更多的约束，因此多样性有所降低。
在这里插入图片描述

5. 结论

文章建立了生成幻觉问题的形式定义，并介绍了Diffusion Illusions，这是一个为生成各种幻觉而设计的多功能管道。通过在多个方面进行全面的实验，定性和定量地验证了所提出方法的有效性，还成功地在现实世界中制造了原始图像。

6.局限性

框架的主要局限性是生成幻觉所需的相对较高的推理时间。尽管框架在推理时间上比单纯的得分蒸馏有所改进，但仍然较慢。