机器视觉作业（一）阅读论文Hybrid images

翻译已于 2024-11-22 17:52:01 修改 · 324 阅读

标签

#计算机视觉 #人工智能

于 2024-11-22 17:51:44 首次发布

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

摘要

我们提出了混合图像，一种产生静态图像的技术，具有两种解释，其随观看距离的变化而变化。混合图像是基于人类视觉系统对图像的多尺度处理，并受到视觉感知中的掩蔽研究的启发。这些图像可以用来创建引人注目的显示，其中图像似乎随着观看距离的变化而变化。我们表明，通过考虑感知分组机制，可以在每个距离上构建具有稳定感知的引人注目的混合图像。我们展示了一些例子，其中混合图像用于创建只有在近距离观看时才可见的纹理，生成面部表情，其解释随观看距离而变化，并在单个图像中可视化随时间的变化。

关键词

混合图像，人的感知，尺度空间

1介绍

在这里，我们利用人类视觉的多尺度感知机制来创造视觉错觉（混合图像），其中可以通过改变观看距离或呈现时间来感知图像的两种不同解释。我们使用并扩展了Schyns和Oliva [1994；1997;1999]。图1示出由两个图像组装的混合图像的示例这些面孔表现出不同的情绪。高空间频率对应于带有“悲伤”表情的脸。低空间频率对应于具有“高兴”和“惊讶”情绪的同一张脸（即，情绪从左到右依次为：高兴、惊讶、高兴和高兴）。要从一种解释转换到另一种解释，可以离图片几米远

图1：混合图像是将一幅图像的低空间频率与另一幅图像的高空间频率结合在一起的图像，其解释随观看距离而变化。在这幅图中，人们可能看起来很悲伤，近距离看，但退后几米，再看看表情。

艺术家们已经有效地利用低空间频率操纵来引出一种依赖于周边视觉时发生变化的感知(例如，[Livingstone 2000；大理1996])。受到这项工作的启发，Setlur和Gooch[2004]提出了一种技术，可以在不同的空间频率上创建具有冲突情绪状态的面部图像。随着凝视的变化，图像会产生微妙的表情变化。在本文中，我们展示了混合图像在创建具有两种不同可能解释的图像方面的有效性。

混合图像是将两幅不同空间尺度的图像叠加在一起生成的：低空间尺度是通过对一幅图像进行低通滤波得到的；高空间尺度是通过用高通滤波器滤波第二图像获得的。最后的图像由这两个滤波后的图像相加而成。注意，混合图像是一种不同于图片马赛克的技术[silver1997]。图片马赛克有两种解释：一种是局部的（由组成马赛克的每张图片的内容决定），另一种是全局的（在预定的距离内观看效果最好）。然而，混合图像包含两个连贯的全局图像解释，其中一个是低空间频率，另一个是高空间频率。

我们用几个概念验证示例来说明这种技术。我们展示了这种技术如何应用于创建随着观看距离而改变表情的人脸图片，在一张图片中显示场景的两种配置，以及在远处观看时呈现消失的纹理。

2混合图像的设计

将两幅图像（ $I_1$ 和 $I_2$ ）组合得到混合图像(H)，其中一幅图像用低通滤波器（ $G_1$ ）滤波，另一幅图像用高通滤波器（ $1-G_2$ ）： $H = I_1 \cdot G_1 + I_2 \cdot(1-G_2)$ ，运算在傅里叶域中定义。混合图像由两个参数定义：低分辨率图像的频率切割（远处看到的图像）和高分辨率图像的频率切割（近距离看到的图像）。可以通过为每个频率通道引入不同的增益来增加一个附加参数。对于本文中所示的混合电路，我们将两个空间通道的增益设置为1。我们使用高斯滤波器（ $G_1$ 和 $G_2$ ）作为低通和高通滤波器。我们将每个滤波器的截止频率定义为滤波器的振幅增益为 $1/2$ 时的频率

图2说明了用于创建一个混合映像的过程。混合图像的每个分量最清晰可见的距离和混合感知交替的距离可以完全确定为图像大小和滤波器截止频率的函数（以cycles/image1表示）。在观看本文中的图像时，请在距离图像几米远的地方切换不同的解释。请注意，显示的图像越大，就需要走得越远，才能看到不同的图像解释。

图2：混合图像是由两幅不同空间尺度的图像叠加而成，低空间尺度是用低通滤波器滤波一幅图像得到的，高空间尺度是用高通滤波器滤波另一幅图像得到的。最终的混合图像是由这两个滤波后的图像相加而成的。

2.1混合图像的感知

在下一节中，我们将描述混合图像背后的动机，因为它们与人类感知的研究有关。我们将提供一个框架来理解涉及到双图像感知的感知机制。

视觉心理物理学研究表明，人类观察者能够在短时间内（100毫秒）理解新图像的含义[波特1975]。在观看动作电影或音乐视频中的快速场景编辑时，可以体验到这种快速图像理解的非凡表现。人类感知的研究表明，图像理解效率是基于对视觉输入的多尺度、全局到局部的分析[Burt和Adelson 1983；Majaj et al . 2002]：一个对整体结构和各组成部分之间空间关系的初始分析指导了局部细节的分析[Schyns和Oliva 1994；1987瓦特)。图像分析的全局优先假设（“看到树木之前看到森林”，[Navon 1977]）意味着对图像进行从粗到细的频率分析，其中由快速巨细胞通路进行对比和传递的低空间频率成分主导了早期的视觉处理[Hughes等，1996；Lindeberg 1993;Parker et al . 1992；Schyns和Oliva 1994；Sugase et al . 1999]。

使用混合刺激，Schyns和Oliva[1994]测试了空间频带在解释自然图像中的作用。当任务要求快速识别场景图像时，人类观察者在高空间频段（从24个周期/图像）之前解释低空间频段（频率截止为8个周期/图像）：当只显示混合图像30毫秒时，观察者识别出低空间尺度（例如，当显示图3中的图像时，他们会回答“猎豹”），而在150毫秒的持续时间内，他们首先识别出高空间尺度（例如，图3中的老虎）。有趣的是，参与者没有意识到视觉刺激有两种解释。另外的实验表明，优先选择用于解释图像的空间频带取决于观看者必须解决的任务。使用与图5相似的混合面。b， Schyns和Oliva[1999]表明，当参与者被要求确定仅显示50毫秒的混合人脸图像的情绪（快乐，愤怒或中性）时，他们选择了低空间频率的人脸（图5.b中的愤怒），但当他们必须确定同一图像的性别时，他们使用混合图像的低空间频率分量和高频率分量一样多。同样，参与者没有报告在这些图像中注意到两种情绪或两种性别的存在。这些结果表明，用于快速图像识别的频带选择是一种灵活的机制：图像分析可能仍然按照低到高的空间尺度处理展开，但人类观察者能够快速选择传达最多信息的频带（低或高）来解决给定任务并解释图像。重要的是，当选择一个空间频率时，观察者不会意识到其他空间尺度中的信息。

图3：边缘和斑点之间的感知分组。这三张图片近距离看是老虎，远距离看是猎豹。这三幅图像的不同之处在于边缘和斑点之间的对齐程度。图像a)包含两幅没有对齐的叠加图像。在图像b)中，眼睛是对齐的。在图c)中，头部姿势和眼睛和嘴巴的位置是对齐的。在适当的对准下，剩余频带无法建立感知。当近距离观察时，很难看到猎豹的脸，因为它被老虎的脸完全掩盖了。从远处看，老虎的边缘与猎豹的脸融为一体。

在人类感知的研究中，混合图像可以表征不同频率通道对图像识别的作用，并评估空间频率处理的时间过程。混合图像提供了一种新的范式，其中图像解释可以通过玩观看距离或展示时间来调。对于给定的观看距离或给定的时间频率，特定的空间频率带支配着视觉处理。混合图像的视觉分析仍然是从全局感知到局部感知，但在选定的频带内，对于给定的观看距离，观察者将首先感知混合图像的全局结构（图3中的图像代表一个头部），并额外花费100毫秒将局部信息组织成一个连贯的感知（如果图像是在远处观看，组织斑点，或近距离观看组织边缘）。

2.2感知分组和混合图像的规则

理论上，人们可以将任意两幅图像组合成一幅混合图像。在实践中，美观的混合图像需要遵循我们在本节中描述的一些规则。在成功的混合图像中，当一种感知占据主导地位时，有意识地切换到另一种解释几乎是不可能的只有当观看距离发生变化时，我们才能切换到另一种解释。在混合图像中，重要的是替代图像被视为噪声（缺乏内部组织）或与主子带混合。

感知分组规则调节混合图像的有效性。低空间频率（blobs）缺乏物体形状和区域边界的精确定义，这需要视觉系统将blobs组合在一起以形成对粗糙尺度的有意义的解释。当观察者看到模棱两可的形式时，他们会用最简单的方式来解释元素。观察者更喜欢元素少而不是多的排列，有对称而不是不对称的组成，通常尊重其他格式塔的感知规则。

在低空间频率中，图案的对称性和重复性是不好的：它们形成了一种难以在感知上消除的强烈感知。如果高空间频率的图像缺乏相同的强分组线索，则低空间频率对应的图像解释将始终可用，即使从近距离观看也是如此。通过引入偶然对准，可以减少一个空间信道对另一个空间信道的影响。例如，在图2中，大象的顶部（低空间频率）与水平线（低和高空间频率）对齐。因此，当近距离观看图像时，大象的上边缘可以用一些精细的边缘来解释。这降低了大象的显著性。图3显示了几个混合图像的例子，在低和高空间频率之间具有不同程度的一致性。

颜色提供了一个非常强大的分组线索，可以用来创造更引人注目的错觉。例如，在图4中，颜色仅在高空间频率中使用，以增强自行车，并在近距离观看图像时加强摩托车作为阴影的解释。

图4：高空间频率的颜色用于增强近距离的自行车。从远处看，人们看到一辆摩托车。摩托车的形状被解释为近距离的阴影。

正确选择滤波器截止频率的重要性如图5所示。在图5。A，两个过滤器有很强的重叠，因此，在两个面之间没有一个干净的过渡。对于图5中的混合图像。B，两个滤光片几乎没有重叠。结果是一个更清晰的图像，产生一个明确的解释（近看像女人，远看像男人）。当图像没有完全对齐时，这一点尤其重要。

图5：一个愤怒的男人还是一个体贴的女人？这两幅混合图像都是由一个愤怒的男人（低空间频率）和一个严厉的女人（高空间频率）的面孔组合而成的。你可以从几米远的地方看这幅画来转换感知。a)混合图像不好。由于滤镜重叠，从近处看，图像看起来很模糊。b)良好的混合形象。

一个有趣的观察是，当图像构造正确时，观察者似乎将被掩盖的图像视为噪声。混合图像打破了真实世界自然图像的一个重要统计特性（图6），即连续空间尺度下通带滤波器输出之间的相关性。图6所示。a显示了自然图像的拉普拉斯金字塔不同层次之间的相互关联矩阵。在一个尺度上发现的边缘与下面和上面的尺度上发现的边缘相关。当两幅图像叠加（加性透明度）时，得到的结果是一样的。在这种情况下，没有一个简单的过滤器来分离这两个图像（并且两个图像的感知是独立于我们观察图像的距离混合的）。图6.c为图像经过模糊处理（截止频率为16c=i），加性白噪声破坏后得到的相关矩阵。相关矩阵揭示了哪些尺度是由噪声主导的，因为它们没有我们期望从自然图像中获得的跨尺度相关性。在混合图像的情况下，相关矩阵（图6.d）揭示了两组的存在。

图6：经过几次操作后，图像在拉普拉斯金字塔各层之间的相关性。a)自然图像，b)两幅图像相加，c)加白噪声模糊图像，d)混合图像（f1 = 16圈/图像，f2 = 48圈/图像）。

图7显示了将拉普拉斯金字塔应用于图5.b的混合图像的输出。低频通道和高频通道看到的图像不同。注意，每个子带本身也是一个混合图像。如果你离开页面，你会看到，一个接一个，子带代表低尺度。在阅读距离上，最上面一排的四幅图像被解读为一个愤怒的人；底部，一个严厉的女人。当你从图像中退后一步，你会看到这个愤怒的人的脸开始出现在更多的子波段中。每个子带的尺度越细，你就必须走得越远，才能看到图像的切换。

图7：拉普拉斯金字塔的输出，显示了图5.b混合图像的组成部分。

总之，可以利用两种主要机制来创建引人注目的混合映像。首先是最大化两个尺度的边缘之间的相关，使它们融合。第二个问题在于，在尺度上与其他边缘不相关的剩余边缘可以被视为噪声。这就是图5b中的情况。其中有一个非常引人注目的混合边缘跨尺度，但是，当观察近距离的图像，似乎有一些低空间频率噪声。

2.3尺度空间的容量

到目前为止，混合图像都是通过混合两幅图像得到的，但是否有可能将两幅以上的图像组合在一起，仍然有一个连贯的感知，随着观看距离的变化而变化？在一项关于文本掩蔽的研究中，Majaj等[2002]创建了一个叠加4个字母的刺激，每个字母包含不同空间尺度的能量。当观察者离开刺激物时，他们报告图像从一个字母切换到另一个字母。结果很有趣，但在多个尺度之间缺乏良好的分组线索会导致图像看起来扭曲。此外，在任何给定时间都可以看到多个字母。多幅图像的叠加仍然是一个悬而未决的问题。

3应用程序

在本节中，我们将讨论一些应用程序（参见补充本文的视频以获得更多示例）。

专用字体：我们可以使用混合图像来显示文本，屏幕上这些文本对于站在离图像有一段距离的人来说是不可见的。保护用户隐私的商业产品通常依赖于头戴式显示器或偏光屏幕，其可见度随视角而降低。混合字体由两部分组成：高空间频率（包含文本）和低空间频率（包含掩蔽图像）。

对于高通滤波器，我们使用高斯滤波器，其宽度(s)调整为s < np，其中np是以像素为单位测量的字母笔画的厚度。低频信道（掩蔽信号）包含类似文本的纹理[Portilla and Simoncelli 2000]。Solomon和Pelli[1994]表明，在每个字母3个周期的频带中，字母更有效地被噪声掩盖。因此，我们将低通滤波器的截止频率调整为3⁄n，其中n为文本行中的字母数。我们的目标是在我们近距离观看时减少噪声对文本的干扰，同时在从远处观看时有效地掩盖噪声。在图8所示的示例中，文本仅为从一米以下的距离可读。从大约两米远的地方看，这些文字是无法辨认的。低空间频率的掩蔽对于产生这种效果非常重要（图8）。底部的文本仅经过高通滤波，在低空间频率下没有掩蔽，因此在相对较远的距离下仍然易于读取。

图8：混合字体在几米的地方变得不可见。底部的文字在相对较远的距离上仍然很容易阅读。

混合纹理：我们可以创建随着观看距离而消失的纹理。图9显示了这个想法的一个例子。这张图展示了一个女人的脸，当你仔细看时，它变成了一只猫。注意，这种效果不能通过使用透明叠加女人的脸和猫的脸来获得。使用透明度（加性叠加）创建一个不会随距离变化的脸。

变化的面孔：混合图像特别强大，可以创建随着我们改变观看距离而改变表情、身份或姿势的面孔图像。图1显示了一个引人注目的面部表情变化的例子。多个尺度的边缘混合在一起，在所有距离上看起来都很自然。在面部图像的情况下，面部特征之间的正确对齐对于创建看起来没有改变的照片非常重要。在不对齐的情况下，最好的方法是在低空间频率的面上应用失真（仿射翘曲）。

时间变化：图9是一个使用混合图像的例子，通过组合在两个不同时刻拍摄的两张照片来显示房屋的两种状态。

图9（右）猫女：从几米远的地方看，对应猫脸的纹理消失了。（左）在建的房子。当你在近距离观看图像时，你会看到房子正在建造中，但如果你离开图像，你会看到它的最终状态。

4.结论

我们已经描述了这种技术，混合图像，它允许创建具有两种解释的图像，这些解释随观看距离的变化而变化。尽管技术很简单，但这些图像对天真的观察者产生了非常引人注目的惊讶效果。它们还提供了一种有趣的新的可视化工具，可以将两个互补的图像转换为一个图像。创建引人注目的混合图像是一个开放和具有挑战性的问题，因为它依赖于在不同空间尺度上相互作用的感知分组机制。

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本