【AI视野·今日CV 计算机视觉论文速览第289期】Fri, 12 Jan 2024

最新推荐文章于 2025-03-05 09:15:00 发布

原创

最新推荐文章于 2025-03-05 09:15:00 发布 · 1.5k 阅读

标签

#人工智能 #计算机视觉 #CV #Computer Vision #视觉应用

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 12 Jan 2024
Totally 79 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Distilling Vision-Language Models on Millions of Videos
Authors Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Kr henb hl, Liangzhe Yuan
视觉语言模型的最新进展很大程度上归功于丰富的图像文本数据。我们的目标是在视频语言模型中复制这一成功，但根本没有足够的人工策划视频文本数据可用。因此，我们依靠强大的图像语言基线和合成的教学数据来微调视频语言模型。然后使用生成的视频语言模型自动标记数百万个视频以生成高质量的字幕。我们展示了改编后的视频语言模型在各种视频语言基准上表现良好。例如，它超出了开放式 NExT QA 的最佳先前结果 2.8 。此外，我们的模型为以前未见过的视频生成详细描述，这比现有方法提供更好的文本监督。实验表明，在这些自动生成的字幕上进行对比训练的视频语言双编码器模型比同样利用视觉语言模型的最强基线好 3.8。

E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation
Authors Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren
在设备上实现灵活的实时图像编辑的一个非常有前途的方向是利用数据蒸馏，通过利用大规模文本到图像扩散模型（例如稳定扩散）来生成用于训练生成对抗网络 GAN 的配对数据集。这种方法显着缓解了高端商用 GPU 通常对使用扩散模型执行图像编辑提出的严格要求。然而，与文本到图像扩散模型不同，每个精炼的 GAN 专门用于特定的图像编辑任务，需要昂贵的训练来获取各种概念的模型。在这项工作中，我们介绍并提出了一个新的研究方向，可以使从扩散模型中提取 GAN 的过程变得更加高效。为了实现这一目标，我们提出了一系列创新技术。首先，我们构建了一个具有通用特征的基础 GAN 模型，通过微调来适应不同的概念，从而无需从头开始训练。其次，我们确定基本 GAN 模型中的关键层，并通过简单而有效的排名搜索过程采用低秩适应 LoRA，而不是微调整个基本模型。第三，我们研究微调所需的最少量数据，进一步减少总体训练时间。

Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors
Authors Jack Saunders, Vinay Namboodiri
视觉配音是在视频中生成演员的嘴唇动作以与给定音频同步的过程。最近的进展在实现这一目标方面取得了进展，但未能产生适合大规模采用的方法。现有方法分为个人通用模型或个人特定模型。特定于人的模型产生的结果几乎与现实没有区别，但依赖于使用大型单人数据集的长时间训练。个人通用作品允许将任何视频视觉配音为任何音频，无需进一步培训，但这些无法捕捉个人特定的细微差别，并且经常受到视觉伪影的影响。我们的方法基于数据高效的神经渲染先验，克服了现有方法的局限性。我们的流程包括学习延迟神经渲染先验网络和使用神经纹理进行特定于演员的适应。这种方法只需几秒钟的数据即可实现高质量的视觉配音，从而可以为从一线名人到背景演员的任何演员进行视频配音。通过两项用户研究，我们在定量和定性方面表明，我们在 textbf 视觉质量和 textbf 可识别性方面实现了最先进的技术。我们之前的学习和适应方法 textbf 可以更好地概括有限的数据，并且比现有的特定于个人的模型更具可扩展性。我们对现实世界、有限数据场景的实验发现，我们的模型优于所有其他模型。

Gaussian Shadow Casting for Neural Characters
Authors Luis Bolanos, Shih Yang Su, Helge Rhodin
神经角色模型现在可以从视频中重建详细的几何形状和纹理，但它们缺乏明确的阴影和阴影，导致在生成新颖的视图和姿势或重新照明期间出现伪影。包含阴影特别困难，因为它们是全局效果，并且所需的二次光线投射成本很高。我们提出了一种使用高斯密度代理的新阴影模型，用简单的分析公式代替采样。它支持动态运动并专为阴影计算而定制，从而避免了密切相关的高斯泼溅所需的仿射投影近似和排序。与延迟神经渲染模型相结合，我们的高斯阴影能够以最小的开销实现朗伯着色和阴影投射。我们展示了改进的重建，在具有直射阳光和硬阴影的具有挑战性的户外场景中更好地分离了反照率、阴影和阴影。我们的方法能够优化光线方向，无需用户输入任何信息。

PALP: Prompt Aligned Personalization of Text-to-Image Models
Authors Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen Or, Ariel Shamir
内容创建者通常旨在使用超出传统文本到图像模型功能的个人主题来创建个性化图像。此外，他们可能希望生成的图像包含特定的位置、风格、氛围等。现有的个性化方法可能会损害个性化能力或与复杂文本提示的对齐。这种权衡可能会妨碍用户提示的实现和主题保真度。我们提出了一种专注于个性化方法的新方法，用于强调单一提示来解决这个问题。我们将我们的方法称为“快速一致的个性化”。虽然这看起来可能有限制，但我们的方法擅长改进文本对齐，能够创建具有复杂提示的图像，这可能对当前技术构成挑战。特别是，我们的方法使用附加的分数蒸馏采样项使个性化模型与目标提示保持一致。我们展示了我们的方法在多镜头和单镜头设置中的多功能性，并进一步表明它可以组合多个主题或使用来自参考图像（例如艺术品）的灵感。

LEGO:Language Enhanced Multi-modal Grounding Model
Authors Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang
多模态大语言模型在不同模态的各种任务中表现出了令人印象深刻的性能。然而，现有的多模态模型主要强调捕获每种模态内的全局信息，而忽略了跨模态感知局部信息的重要性。因此，这些模型缺乏有效理解输入数据的细粒度细节的能力，限制了它们在需要更细致理解的任务中的性能。为了解决这一限制，迫切需要开发能够跨多种模式进行细粒度理解的模型，从而增强其对广泛任务的适用性。在本文中，我们提出了 LEGO，一种语言增强的多模态基础模型。除了像其他多模态模型一样捕获全局信息之外，我们提出的模型还擅长执行需要详细了解输入中的本地信息的任务。它展示了对图像或视频中特定区域的精确识别和定位。为了实现这一目标，我们设计了多样化的数据集构建流程，从而为模型训练提供了多模式、多粒度的数据集。

MatSynth: A Modern PBR Materials Dataset
Authors Giuseppe Vecchio, Valentin Deschaintre
我们介绍 MatSynth，这是一个包含 4,000 个 CC0 超高分辨率 PBR 材料的数据集。材质是虚拟可重新照明资产的重要组成部分，定义了光在几何体表面的相互作用。鉴于它们的重要性，大量的研究工作致力于它们的表现、创造和获取。然而，在过去的六年中，大多数材料获取或生成的研究要么依赖于相同的独特数据集，要么依赖于公司拥有的庞大的程序材料库。通过这个数据集，我们提出了比以前公开的更大、更多样化、分辨率更高的材料集。我们仔细讨论了数据收集过程，并展示了该数据集在材料采集和生成应用程序中的优势。完整的数据还包含元数据，包括每种材料的来源、许可证、类别、标签、创建方法以及可用的描述和物理尺寸，以及增强材料在各种环境照明下的 1K 3M 渲染。

Fast High Dynamic Range Radiance Fields for Dynamic Scenes
Authors Guanjun Wu, Taoran Yi, Jiemin Fang, Wenyu Liu, Xinggang Wang
神经辐射场 NeRF 及其扩展在表示 3D 场景和合成新颖的视图图像方面取得了巨大成功。然而，大多数 NeRF 方法采用低动态范围 LDR 图像，这可能会丢失细节，尤其是在照明不均匀的情况下。之前的一些 NeRF 方法尝试引入高动态范围 HDR 技术，但主要针对静态场景。为了将 HDR NeRF 方法扩展到更广泛的应用，我们提出了一个动态 HDR NeRF 框架，名为 HDR HexPlane，它可以从使用各种曝光捕获的动态 2D 图像中学习 3D 场景。构建可学习的曝光映射函数以获得每个图像的自适应曝光值。基于单调递增先验，设计了相机响应函数以实现稳定学习。通过所提出的模型，可以在任何时间点以任何所需的曝光度渲染高质量的新颖视图图像。我们进一步构建了一个数据集，其中包含使用不同曝光捕获的多个动态场景以进行评估。

RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks
Authors Partha Ghosh, Soubhik Sanyal, Cordelia Schmid, Bernhard Sch lkopf
我们提出了一种新颖的无条件视频生成模型，旨在解决长期空间和时间依赖性。为了捕获这些依赖性，我们的方法采用了混合显式隐式三平面表示，其灵感来自于为三维对象表示而开发的 3D 感知生成框架，并采用单一潜在代码来对整个视频序列进行建模。然后从中间三平面表示合成各个视频帧，该中间三平面表示本身是从主要潜在代码导出的。这种新颖的策略将计算复杂度降低了 2 倍（以 FLOP 为单位）。因此，我们的方法有助于高效且时间连贯地生成视频。此外，与自回归方法相比，我们的联合帧建模方法可以减少视觉伪影的产生。我们通过将基于光流的模块集成到基于生成对抗网络 GAN 的生成器架构中，进一步增强了模型的功能，从而补偿了较小生成器尺寸所带来的限制。因此，我们的模型能够合成分辨率为 256 × 256 像素的高保真视频剪辑，持续时间在 30 fps 的帧速率下延长至 5 秒以上。

GE-AdvGAN: Improving the transferability of adversarial samples by gradient editing-based adversarial generative model
Authors Zhiyu Zhu, Huaming Chen, Xinyi Wang, Jiayu Zhang, Zhibo Jin, Kim Kwang Raymond Choo
对抗生成模型，例如生成对抗网络 GAN，广泛应用于生成各种类型的数据，即图像、文本和音频。因此，其令人鼓舞的性能催生了白盒和黑盒攻击场景中基于 GAN 的对抗攻击方法。可转移黑盒攻击的重要性在于它们能够在不同的模型和设置中发挥作用，更贴近现实世界的应用程序。然而，保持此类方法在可转移对抗样本方面的性能仍然具有挑战性。同时，我们观察到一些基于增强梯度的可转移对抗攻击算法需要更长的时间来生成对抗样本。因此，在这项工作中，我们提出了一种名为 GE AdvGAN 的新算法，以增强对抗样本的可转移性，同时提高算法的效率。主要方法是通过优化生成器参数的训练过程。通过功能和特征相似性分析，我们引入了一种新颖的梯度编辑GE机制，并验证了其在各种模型上生成可转移样本的可行性。此外，通过探索频域信息来确定梯度编辑方向，GE AdvGAN 可以生成高度可转移的对抗样本，同时与最先进的可转移对抗攻击算法相比，最大限度地减少执行时间。通过在不同数据集上的大规模实验对GE AdvGAN的性能进行了综合评估，结果证明了我们算法的优越性。

Automatic UAV-based Airport Pavement Inspection Using Mixed Real and Virtual Scenarios
Authors Pablo Alonso, Jon Ander I iguez de Gordoa, Juan Diego Ortega, Sara Garc a, Francisco Javier Iriarte, Marcos Nieto
跑道和滑行道路面在其预计使用寿命期间会承受高压力，这不可避免地会导致其状况随着时间的推移而恶化。为了确保机场路面状况确保不间断和弹性运行，监测其状况并进行定期检查至关重要。由于其广泛的监控能力和降低的成本，基于无人机的检查最近变得越来越重要。在这项工作中，我们提出了一种基于视觉的方法，使用无人机捕获的图像自动识别路面破损。该方法基于深度学习 DL 来分割图像中的缺陷。深度学习架构通过使用 EfficientNet 特征提取和特征金字塔网络分割的优化实现，利用了无人机嵌入式系统的低计算能力。为了解决训练注释数据的缺乏问题，我们开发了一种合成数据集生成方法来扩展可用的遇险数据集。

Surgical-DINO: Adapter Learning of Foundation Model for Depth Estimation in Endoscopic Surgery
Authors Cui Beilei, Islam Mobarakol, Bai Long, Ren Hongliang
目的机器人手术中的深度估计对于 3D 重建、手术导航和增强现实可视化至关重要。尽管基础模型在许多视觉任务中表现出出色的性能，包括深度估计（例如 DINOv2），但最近的工作观察到其在医学和外科领域特定应用中的局限性。这项工作提出了用于手术深度估计的基础模型的低等级适应 LoRA。方法我们设计了一种基于基础模型的深度估计方法，称为 Surgical DINO，它是 DINOv2 的低阶改编，用于内窥镜手术中的深度估计。我们构建 LoRA 层并将其集成到 DINO 中，以适应手术特定领域知识，而不是传统的微调。在训练过程中，我们冻结了 DINO 图像编码器，该编码器显示出出色的视觉表示能力，并且仅优化 LoRA 层和深度解码器以集成手术场景的特征。结果我们的模型在 SCARED 的 MICCAI 挑战数据集上得到了广泛验证，该数据集是从达芬奇 Xi 内窥镜手术中收集的。我们凭经验表明，在内窥镜深度估计任务中，Surgical DINO 显着优于所有最先进的模型。消融研究的分析证明了 LoRA 层和适应的显着效果。结论 Surgical DINO 为将基础模型成功应用于手术领域进行深度估计提供了一些启示。结果中有明确的证据表明，对计算机视觉数据集中预先训练的权重进行零样本预测或朴素微调不足以直接在外科领域使用基础模型。

Attention to detail: inter-resolution knowledge distillation
Authors Roc o del Amor, Julio Silva Rodr guez, Adri n Colomer, Valery Naranjo
由于整个幻灯片图像尺寸较大，计算限制极大，阻碍了数字病理学中十亿像素图像的计算机视觉解决方案的开发。特别是，以高分辨率对活检进行数字化是一个耗时的过程，由于图像细节的减少会导致结果恶化，因此这是必要的。为了缓解这个问题，最近的文献提出使用知识蒸馏来增强图像分辨率降低时的模型性能。特别是，在最高放大倍率级别提取的软标签和特征被提炼成以较低放大倍率图像作为输入的模型。然而，这种方法无法传递有关分类过程中最具辨别力的图像区域的知识，当分辨率降低时，这些知识可能会丢失。在这项工作中，我们建议通过在训练期间合并注意力图来提取这些信息。特别是，我们的公式通过 grad CAM 利用目标类的显着性图，从而引导较低分辨率的学生模型通过最小化它们之间的 l2 距离来匹配教师分布。

Sea ice detection using concurrent multispectral and synthetic aperture radar imagery
Authors Martin S J Rogers, Maria Fox, Andrew Fleming, Louisa van Zeeland, Jeremy Wilkinson, J. Scott Hosking
合成孔径雷达 SAR 图像是用于海冰测绘的主要数据类型，因为它具有时空覆盖范围，并且能够独立于云和照明条件检测海冰。由于图像中存在模糊信号和噪声，使用 SAR 图像进行自动海冰检测仍然存在问题。相反，使用多光谱图像 MSI 可以轻松区分冰和水，但在极地地区，海洋表面经常被云遮挡，或者太阳可能好几个月都不会出现在地平线上方。为了解决其中的一些限制，本文提出了一种使用并发多光谱可见光和 SAR 图像进行海冰检测 ViSual IceD 训练的新工具。 ViSual IceD 是一种卷积神经网络 CNN，它基于经典的 U Net 架构构建，包含两个并行编码器级，能够融合和串联包含不同空间分辨率的 MSI 和 SAR 图像。将 ViSual IceD 的性能与使用串联 MSI 和 SAR 图像训练的 U Net 模型以及仅在 MSI 或 SAR 图像上训练的模型进行比较。 ViSual IceD 优于其他网络，F1 分数比次优网络高 1.60 分，结果表明 ViSual IceD 在图像分割过程中使用的图像类型具有选择性。将 ViSual IceD 的输出与 AMSR2 无源微波 PMW 传感器的海冰浓度产品进行比较。结果凸显了 ViSual IceD 如何成为与 PMW 数据结合使用的有用工具，特别是在沿海地区。