【cs.CV】25.1.8 arxiv更新速递

最新推荐文章于 2026-06-23 20:46:27 发布

原创

最新推荐文章于 2026-06-23 20:46:27 发布 · 1.2k 阅读

标签

#python #计算机视觉 #深度学习 #机器学习 #人工智能

—第1篇----

=====

ConceptMaster: 面向扩散Transformer模型的多概念视频定制，无需测试时调优

🔍 关键词: 文本到视频生成, 扩散模型, 多概念定制, 身份解耦

链接1

摘要: 文本到视频生成通过扩散模型取得了显著进展。然而，多概念视频定制（MCVC）仍然是一个重大挑战。我们在该任务中发现了两个关键挑战：1）身份解耦问题，直接采用现有的定制方法在同时处理多个概念时不可避免地混合属性；2）高质量视频实体对的短缺，这对于训练能够良好表示和解耦各种概念的模型至关重要。为了解决这些挑战，我们提出了ConceptMaster，一个创新框架，有效解决了身份解耦的关键问题，同时保持定制视频中的概念保真度。具体来说，我们引入了一种学习解耦多概念嵌入的新策略，这些嵌入以独立的方式注入扩散模型，有效保证了具有多个身份的定制视频的质量，即使对于高度相似的视觉概念也是如此。为了进一步克服高质量MCVC数据的短缺，我们精心建立了一个数据构建管道，能够系统地收集跨不同概念的精确多概念视频实体数据。设计了一个综合基准，从概念保真度、身份解耦能力和视频生成质量三个关键维度验证了我们模型的有效性，涵盖了六种不同的概念组合情景。大量实验证明，我们的ConceptMaster在此任务上显著优于之前的方法，为生成跨多个概念的个性化和语义准确的视频开辟了道路。

总结: ConceptMaster通过学习解耦多概念嵌入解决了多概念视频定制中的身份混合问题，并有效克服了高质量数据短缺，显著提升了多概念视频生成的质量和保真度。

###【arXiv编号】2501.04698v1

###【git】

###【期刊】

###【领域】计算机视觉

[推荐指数：4]

ConceptMaster在解决多概念视频定制中的身份解耦和数据短缺问题上具有显著创新性和实用性，显著提升了视频生成的质量和保真度，适用于个性化和复杂语义的视频生成任务。

—第2篇----

=====

Grokking at the Edge of Numerical Stability

🔍 关键词: 机器学习, 人工智能, 计算机视觉, 统计机器学习

arXiv

摘要: Grokking，是在长期过拟合后出现的突然泛化，是一个令人惊讶的现象，挑战了我们对深度学习的理解。尽管在理解grokking方面已取得显著进展，但延迟泛化的原因及其对正则化的依赖尚不清楚。在本研究中，我们认为如果没有正则化，grokking任务会将模型推向数值稳定性的边缘，引入Softmax函数中的浮点错误，我们称之为Softmax崩溃（Softmax Collapse, SC）。我们展示了SC如何阻止grokking，并且通过减轻SC可以在没有正则化的情况下实现grokking。调查SC的根本原因，我们发现，超过过拟合点后，梯度强烈地与我们称之为天真损失最小化（naïve loss minimization, NLM）方向对齐。梯度的这一组成部分不会改变模型的预测，但通过缩放logits来降低损失，通常是通过沿其当前方向缩放权重。我们展示，这种logits的缩放解释了grokking特有的延迟泛化，并最终导致SC，阻止进一步学习。为了验证我们的假设，我们引入了两个关键贡献，解决grokking任务中的挑战：StableMax，一种新的激活函数，防止SC并在没有正则化的情况下实现grokking；以及 $\perp$ Grad，一种训练算法，通过完全防止NLM来促进grokking任务的快速泛化。这些贡献为grokking提供了新的见解，阐明了其延迟泛化、对正则化的依赖以及现有诱导grokking方法的有效性。本文的代码可在 GitHub 获取。
总结: 本文通过引入新的激活函数和训练算法，揭示并解决了grokking现象背后的数值稳定性问题。

###【2501.04697】
###【https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability】
###【暂无期刊信息】
###【深度学习，机器学习】

[推荐指数：4]

本文针对grokking现象提出了创新性的解决方案，提升了模型的数值稳定性，对深度学习理论和实践具有重要参考价值。

—第3篇----

=====

Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation

🔍 关键词: 测试时优化，域自适应，开放词汇，语义分割

PDF链接

摘要: 我们提出了Seg-TTO，一个用于零样本、开放词汇语义分割（OVSS）的新型框架，旨在在专业领域任务中表现出色。尽管当前的开放词汇方法在零样本设置下在标准分割基准上表现出色，但在高度领域特定的数据集上仍不及监督方法。我们专注于针对分割的测试时优化来解决这一差距。分割需要在单个图像中理解多个概念，同时保持表示的局部性和空间结构。我们提出了一种新颖的自监督目标，遵循这些要求，并在测试时使用它将模型参数与输入图像对齐。在文本模态中，我们为每个类别学习多个嵌入，以捕捉图像中的多样化概念，而在视觉模态中，我们计算像素级损失，然后进行特定于保持空间结构的嵌入聚合操作。我们的框架Seg-TTO是一个即插即用的模块。我们将Seg-TTO与三种最先进的OVSS方法集成，并在涵盖各种专业领域的22个具有挑战性的OVSS任务上进行评估。我们的Seg-TTO在这些任务中显著提高了性能，确立了新的最先进水平。代码: GitHub链接。

总结: Seg-TTO通过测试时优化显著提升了开放词汇语义分割在专业领域中的性能。

###【arXiv编号】2501.04696v1

###【git】https://github.com/UlinduP/SegTTO

###【期刊】

###【领域】计算机科学，计算机视觉

[推荐指数：4]

Seg-TTO在开放词汇语义分割领域通过创新的测试时优化方法显著提升了性能，具有很高的实用性和创新性，适用于多个专业领域任务。

—第4篇----

=====

Click2Mask: Local Editing with Dynamic Mask Generation

🔍 关键词: cs.CV, cs.GR, cs.LG

链接1

摘要: 最近在生成模型方面的进展已经彻底改变了图像生成和编辑，使这些任务对非专家也变得可行。本文专注于局部图像编辑，特别是在松散指定区域内添加新内容的任务。现有方法通常需要一个精确的掩码或详细的位置描述，这可能既繁琐又容易出错。我们提出了Click2Mask，这是一种新颖的方法，通过仅需要一个参考点（加上内容描述）来简化局部编辑过程。掩码在模糊潜在扩散（BLD）过程中动态增长，并由基于CLIP的语义损失引导。Click2Mask 超越了基于分割和依赖微调方法的限制，提供了更友好且语境上更准确的解决方案。我们的实验表明，Click2Mask 不仅最小化了用户的操作，还能够在局部图像操作方面，通过人工判断和自动指标与最新方法相比达到竞争甚至更优的效果。主要贡献包括简化用户输入、能够自由添加不受现有分段限制的对象，以及我们动态掩码方法在其他编辑方法中的集成潜力。
总结: Click2Mask 提出了通过单点参考简化局部图像编辑的新方法，实现了高效且精确的图像内容添加。
###【arXiv编号】
arXiv:2409.08272v2
###【git】

###【期刊】

###【领域】
计算机视觉、图形学、机器学习

[推荐指数：4]

Click2Mask 通过动态掩码生成和单点参考的创新方法，显著简化了局部图像编辑流程，并在用户体验和编辑效果上表现出色，展示了较高的创新性和实用性。

—第5篇----

=====

Planarian Neural Networks: Evolutionary Patterns from Basic Bilateria Shaping Modern Artificial Neural Network Architectures

🔍 关键词: cs.NE, cs.AI, cs.CV, cs.LG, 68T07

PDF链接

摘要: 本研究通过开发具有类似生物神经网络进化模式的人工神经网络（ANNs），探讨了提高图像分类任务中ANN预测准确性的可行性。选择ResNet作为基础模型，旨在通过受扁形动物（planarians）生物神经系统架构启发的新方法，提升ANN的图像分类性能。扁形动物独特的神经架构，包括大脑和两条神经索，提供了ANN性能提升的宝贵见解。基于扁形动物神经架构的新型神经网络在CIFAR-10和CIFAR-100数据集上进行了评估，结果显示该方法在图像分类任务中的预测准确性高于基线神经网络模型。这些发现表明，生物启发的神经网络架构在广泛应用中提升ANN性能方面具有显著潜力。
总结: 通过借鉴扁形动物的神经架构，研究提出的新型神经网络显著提升了图像分类的预测准确性。
###【arXiv编号】arXiv:2501.04700v1
###【git】
###【期刊】
###【领域】计算机科学 - 神经与进化计算、人工智能、计算机视觉、机器学习

[推荐指数：4]

该论文创新性地将扁形动物的生物神经架构应用于人工神经网络设计，并在图像分类任务中展现出优于传统模型的性能，具有较高的实用性和研究价值。

—第6篇----

=====

EditAR: Unified Conditional Generation with Autoregressive Models

🔍 关键词: 自回归模型, 条件图像生成, 图像编辑, 深度到图像, 边缘到图像, 分割到图像

项目页面

摘要: 近年来，可控图像生成和编辑的进展主要依赖于基于扩散的方法。尽管扩散模型在特定任务中通过定制设计表现卓越，但建立一个统一模型仍然具有挑战性。相比之下，自回归模型本身具备统一的标记化表示，这简化了为各种任务创建单一基础模型的过程。在本研究中，我们提出了EditAR，这是一种用于多种条件图像生成任务的统一自回归框架，例如图像编辑、深度到图像、边缘到图像、分割到图像。该模型同时接受图像和指令作为输入，并在普通的下一个标记范式中预测编辑后的图像标记。为了增强文本与图像的对齐，我们进一步提出将基础模型的知识蒸馏到自回归建模过程中。我们在已建立的基准测试中评估了其在多样化任务上的有效性，结果显示其性能与各种最先进的任务特定方法具有竞争力。
总结: EditAR 提供了一种统一且高效的自回归框架，能够处理多种条件图像生成任务，并在多个基准测试中表现出与最先进方法相媲美的性能。
###【arXiv编号】2501.04699v1
###【git】无
###【期刊】未发表
###【领域】计算机视觉

[推荐指数：4]

EditAR通过采用自回归模型实现了多种条件图像生成任务的统一处理，展现了在创新性和实用性上的良好平衡，适合进一步研究和应用。

—第7篇----

=====

Re-ranking the Context for Multimodal Retrieval Augmented Generation

🔍 关键词: 检索增强生成、多模态系统、相关性度量、知识库检索、信息检索、机器学习、计算机视觉

PDF链接

摘要: 检索增强生成（RAG）通过结合外部知识，提高了大型语言模型（LLMs）的性能，使得在特定上下文中生成的回应更加准确，且减少了幻觉。然而，多模态RAG系统面临独特的挑战：（i）检索过程可能会选择与用户查询不相关的条目（例如，图像、文档）；（ii）视觉-语言模型或多模态语言模型如GPT-4o在处理这些条目以生成RAG输出时可能会产生幻觉。本文旨在解决第一个挑战，即在多模态RAG的检索阶段改进从知识库中选择相关上下文。具体来说，我们利用在之前工作中设计的相关性得分（RS）度量来评估RAG性能，以在检索过程中选择更相关的条目。基于嵌入（如基于CLIP的嵌入）和余弦相似度的检索通常表现不佳，特别是对于多模态数据。我们展示了通过使用更先进的相关性度量，可以通过从知识库中选择更相关的片段并通过自适应选择最多k个条目而不是固定数量的条目来消除上下文中的不相关片段，从而增强检索过程。我们使用COCO数据集的评估表明，在选择相关上下文和生成回应的准确性方面有显著提升。

总结: 该研究通过改进相关性度量方法，显著提升了多模态检索增强生成系统在选择相关上下文和生成准确回应方面的性能。

###【arXiv编号】：2501.04695v1

###【git】

###【期刊】

###【领域】：多模态检索增强生成、机器学习、信息检索

[推荐指数：4]

=====

—第8篇----

=====

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

🔍 关键词: 单图像3D重建, 点扩散模型, 点云, 网格生成

链接1

摘要: 我们研究了单图像3D物体重建的问题。近期工作已经分化为两种方向：基于回归的建模和生成建模。回归方法能够高效推断可见表面，但在处理遮挡区域时存在困难。生成方法通过建模分布更好地处理不确定区域，但计算成本高且生成结果往往与可见表面对齐不准确。本文提出了SPAR3D，一种新颖的两阶段方法，旨在融合这两种方向的优点。SPAR3D的第一阶段使用轻量级点扩散模型生成稀疏的3D点云，具有快速采样速度。第二阶段利用采样的点云和输入图像创建高细节网格。我们的两阶段设计在保持高计算效率和输出精度的同时，实现了对不适定的单图像3D任务的概率建模。使用点云作为中间表示进一步允许用户进行交互编辑。在多样化的数据集上评估表明，SPAR3D在推断速度为0.7秒时，性能优于以往最先进的方法。
总结: SPAR3D通过两阶段方案实现了高效且高精度的单图像3D物体重建。

###【arXiv编号】2501.04689v1
###【git】https://spar3d.github.io
###【期刊】
###【领域】计算机视觉, 计算机图形学

[推荐指数：4]

SPAR3D在单图像3D重建领域提出了创新性的两阶段方法，结合了回归与生成模型的优势，展现出优越的性能和实用性，但尚需在实际应用中进一步验证其效果。

—第9篇----

=====

RadGPT: Constructing 3D Image-Text Tumor Datasets

🔍 关键词: 人工智能, 3D 图像, 肿瘤数据集, CT 扫描, 报告生成

链接1

摘要: 在美国每年进行超过8500万次CT扫描，创建与肿瘤相关的报告对于放射科医师来说是一项具有挑战性且耗时的任务。为了解决这一需求，我们提出了RadGPT，一种具备解剖意识的视觉-语言AI代理，用于从CT扫描中生成详细报告。RadGPT首先分割肿瘤，包括良性囊肿和恶性肿瘤，以及其周围的解剖结构，然后将这些信息转化为结构化报告和叙述性报告。这些报告提供肿瘤的大小、形状、位置、衰减、体积以及与周围血管和器官的相互作用。对未见医院的广泛评估显示，RadGPT能够生成准确的报告，对于小肿瘤（<2 cm）的检测具有高灵敏度/特异性：肝肿瘤80/73%，肾肿瘤92/78%，胰腺肿瘤77/77%。对于大肿瘤，灵敏度范围为89%至97%。这些结果显著超过了腹部CT报告生成的现有技术。
RadGPT为17个公共数据集生成了报告。通过放射科医师的审查和修正，我们确保了报告的准确性，并创建了第一个公开可用的图像-文本3D医学数据集，包括来自9,262次CT扫描的270万图像和180万文本标记，其中包括2,947个肿瘤扫描/报告和8,562个肿瘤实例。我们的报告能够：(1) 在每个体素上定位八个肝亚段和三个胰腺亚段的肿瘤；(2) 在260份报告中确定胰腺肿瘤阶段（T1-T4）；(3) 提供多个肿瘤的单独分析——在人类编写的报告中罕见。重要的是，有948份报告针对早期肿瘤。
总结: RadGPT利用视觉-语言AI技术从CT扫描中生成详细且准确的肿瘤报告，显著提升了肿瘤检测和报告生成的效率与精度。

###【arXiv编号】2501.04678v1
###【git】
###【期刊】
###【领域】计算机视觉、医学影像处理、人工智能

[推荐指数：5]

该研究在医疗影像分析和报告生成领域表现出高度创新性和实用性，其创建的公开数据集为未来研究提供了宝贵资源，同时在性能上显著超越现有技术，具有广泛的应用前景。

—第10篇----

=====

Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations

🔍 关键词: Financial VQA, Vision Language Models, Structured Representations, Chart Interpretation

链接1

摘要: 图表解释对于视觉数据分析至关重要，但准确地从图表中提取信息对自动化模型提出了重大挑战。本研究探讨了DEPLOT（一种将图表图像转换为线性化表格的模态转换模块）在一个包含50,000个柱状图的自定义数据集上的微调。该数据集包含简单的、堆叠的和分组的柱状图，针对这些可视化的独特结构特征。微调后的DEPLOT模型使用1,000张图像的测试集和两个指标进行评估：相对映射相似度（RMS），衡量类别映射的准确性；相对数字集相似度（RNSS），评估数值解释的准确性。为了进一步探索大型语言模型（LLMs）的推理能力，我们策划了另外一组100张柱状图图像以及问题解答集。我们的研究发现，提供结构化中间表格与图像一起，显著提升了LLM的推理性能，相较于仅直接图像查询。
总结: 提供结构化中间表格能显著提升视觉语言模型在金融视觉问答中的推理能力。

###【arXiv:2501.04675v1】
###【期刊】无
###【领域】计算语言学, 人工智能, 计算机视觉, 机器学习

[推荐指数：4]

该研究通过微调DEPLOT模型并结合结构化表格，提升了大型语言模型在图表问答任务中的性能，具有较高的实用价值和创新性。

—第11篇----

=====

GLoG-CSUnet: 通过可调放射性特征增强视觉变换器的医学图像分割

🔍 关键词: 视觉变换器, 医学图像分割, 放射性特征, Gabor滤波器, LoG滤波器

链接1

摘要: 视觉变换器（ViTs）通过捕捉长距离关联在医学图像语义分割（MISS）中显示出潜力。然而，ViTs在有效建模局部空间信息方面往往表现不佳，这对于准确分割细微解剖细节尤为重要，特别是在应用于小型数据集且没有大量预训练的情况下。我们提出了Gabor和Laplacian of Gaussian卷积Swin网络（GLoG-CSUnet），这是一种新颖的架构，通过整合可学习的放射性特征来增强基于变换器的模型。该方法结合了动态自适应的Gabor和LoG滤波器，以捕捉纹理、边缘和边界信息，从而增强变换器模型处理的特征表示。我们的方法独特地结合了变换器的长距离依赖建模能力与Gabor和LoG特征的纹理分析能力。在Synapse多器官和ACDC心脏分割数据集上的评估表明，GLoG-CSUnet相较于最先进的模型取得了显著的改进，Synapse数据集Dice分数提高了1.14%，ACDC提高了0.99%，且计算开销最小（分别仅增加15和30个参数）。GLoG-CSUnet的灵活设计允许与各种基础模型集成，为在医学图像分析中将放射性特征提取集成到变换器架构中提供了有前景的方法。代码实现可在GitHub上获取: https://github.com/HAAIL/GLoG-CSUnet。
总结: GLoG-CSUnet通过集成可学习的Gabor和LoG滤波器，有效提升了视觉变换器在医学图像分割中的性能。

###【arXiv编号】2501.02788v2

###【git】GLoG-CSUnet GitHub

###【期刊】预印本

###【领域】计算机视觉, 人工智能, 机器学习

[推荐指数：4]

=====

—第12篇----

=====

DRIVINGVQA: 分析视觉语言模型在现实场景中通过驾驶理论测试进行视觉思维链推理

🔍 关键词: 视觉-语言模型, 多模态推理, 视觉推理, 驾驶理论测试

链接1

摘要: 大型视觉-语言模型（LVLMs）通过视觉理解增强了语言模型，使得多模态推理成为可能。然而，由于文本和视觉数据之间的模态差距，它们常常面临诸多挑战，如过度依赖文本先验、幻觉现象，以及对复杂视觉推理的能力有限。现有的评估LVLMs视觉推理的基准通常依赖于示意图或合成图像，以及不精确的机器生成解释。为了弥合模态差距，我们提出了DrivingVQA，这是一个基于驾驶理论测试的新基准，旨在评估复杂现实场景中的视觉思维链推理。它提供了3,931个专家设计的选择题和交错的解释，这些解释基于与推理过程相关的实体。我们利用该数据集对LVLMs在推理复杂视觉场景方面的能力进行了广泛研究。实验结果表明，开源和专有的LVLMs在零样本设置下的视觉思维链推理存在困难。我们研究了利用相关实体的训练策略以改善视觉推理。值得注意的是，当在与这些实体相关的裁剪区域的图像令牌上进行推理时，性能提升了多达7%。

总结: 本文提出了DrivingVQA基准，评估大型视觉-语言模型在复杂驾驶场景中的视觉思维链推理能力，并展示了通过实体相关的训练策略可以显著提升模型性能。

###【2501.04671v1】
###【】
###【】
###【计算机视觉, 人工智能】

[推荐指数：4]

该论文提出了一个针对真实驾驶场景的视觉推理基准，填补了现有评估方法的不足，并通过实验验证了提升LVLMs视觉推理能力的有效策略，具有较高的创新性和实用性。

—第13篇----

=====

Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

🔍 关键词: 多模态模型, 视觉匹配, 大型语言模型, 基准测试

链接1

摘要: 最近多模态模型的进展显示出在视觉感知、推理能力和视觉-语言理解方面的强大能力。然而，关于视觉匹配能力的研究尚缺失，找到对象的视觉对应在视觉研究中至关重要。我们的研究揭示了当前多模态大型语言模型（MLLMs）的匹配能力仍然存在系统性不足，即使是目前强大的MLLMs模型GPT-4o。具体而言，我们构建了一个多模态视觉匹配（MMVM）基准，以公平地对30多种不同的MLLMs进行基准测试。MMVM基准测试由15个开源数据集和带有人工注释的互联网视频构建。我们根据所需的线索和能力将MMVM基准的样本数据分为八个方面，以更全面地评估和分析当前的MLLMs。此外，我们设计了一个自动注释流程，以生成MMVM SFT数据集，包括22万条带有推理注释的视觉匹配数据。最后，我们提出了CoLVA，这是一种新型的对比MLLM，具有两个新颖的技术设计：细粒度的视觉专家与对象级对比学习以及指令增强策略。CoLVA在MMVM基准上实现了51.06%的总体准确率（OA），超过了GPT-4o和基线分别8.41%和23.58%的OA。结果表明了我们MMVM SFT数据集和新颖技术设计的有效性。代码、基准、数据集和模型可在https://github.com/zhouyiks/CoLVA获得。
总结: 本文发现当前多模态大型语言模型在视觉匹配能力上存在系统性不足，并通过构建新的基准和提出新模型CoLVA显著提升了视觉匹配性能。
###【arXiv:2501.04670v1】
###【https://github.com/zhouyiks/CoLVA】
###【期刊】
###【领域】计算机视觉

[推荐指数：4]

该研究针对多模态大型语言模型在视觉匹配方面的不足进行了系统评估，并提出了有效的改进方法，具有较高的创新性和实用性。

—第14篇----

=====

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

🔍 关键词: 虚拟试衣, 合成数据, 噪声调度, 计算机视觉

链接1

摘要: 在标准产品视图中给定一张孤立的服装图像和一张单独的人物图像，虚拟试衣任务旨在生成一张新的穿着目标服装的人的图像。先前的虚拟试衣工作面临两个主要挑战：a）配对的（人类，服装）训练数据的有限可用性；b）在人体上生成与提示的服装完全匹配的纹理是困难的，通常导致扭曲的文字和褪色的纹理。我们的工作通过合成数据和模型精化的方法来解决这些问题。我们引入了一种服装提取模型，该模型从单张穿着服装的个体图像中生成（人类，合成服装）对。然后，可以使用这些合成对来增强虚拟试衣的训练。我们还提出了一种基于误差感知精炼的Schrödinger桥（EARSB），它外科手术式地针对局部生成错误来修正基础虚拟试衣模型的输出。为了识别可能的错误，我们提出了一种弱监督的错误分类器，来定位需要精炼的区域，随后用其置信热图增强Schrödinger桥的噪声调度。在VITON-HD和DressCode-Upper上的实验表明，我们的合成数据增强提高了先前工作的性能，而EARSB则改善了整体图像质量。在用户研究中，我们的模型在平均59%的情况下受到用户的喜爱。
总结: 本文通过合成数据增强和误差感知精炼方法，显著提升了虚拟试衣系统的性能和图像质量。

###【arXiv:2501.04666v1】
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数：4]

本文提出了创新性的合成数据生成和误差修正方法，成功解决了虚拟试衣任务中数据稀缺和纹理生成不匹配的问题，具有较高的实用性和研究价值。

—第15篇----

=====

HyFusion: Enhanced Reception Field Transformer for Hyperspectral Image Fusion

🔍 关键词: eess.IV, cs.CV

PDF链接

摘要: 高光谱图像（HSI）融合旨在从高分辨率多光谱图像（HR-MSI）和低分辨率高光谱图像（LR-HSI）重建高分辨率HSI（HR-HSI），这是一个关键任务，因为获取高质量HSI的成本高昂且硬件限制。虽然现有方法利用空间和光谱关系，但它们常常存在接受域有限和特征利用不足的问题，导致性能不佳。此外，高质量HSI数据的稀缺性凸显了高效数据利用的重要性，以最大化重建质量。为了解决这些问题，我们提出了HyFusion，一个新颖的框架，旨在增强接收域并实现有效的特征图重用，从而最大化数据利用。首先，将HR-MSI和LR-HSI输入连接形成准融合草图，保持互补的空间和光谱细节。接下来，引入增强接收域块（ERFB），结合移动窗口注意力和密集连接来扩展接收域，有效捕捉长程依赖并重用特征以减少信息损失，从而提高数据效率。最后，双耦合网络（DCN）动态提取LR-HSI和HR-MSI中的高频光谱和空间特征，确保跨域融合的高效性。广泛的实验表明，HyFusion在HR-MSI/LR-HSI融合中实现了最先进的性能，显著提高了重建质量，同时保持了紧凑的模型大小和计算效率。通过集成增强的接收域和特征图重用，HyFusion为资源受限场景中的HSI融合提供了实用且有效的解决方案，树立了高光谱成像的新标杆。我们的代码将公开提供。
总结: HyFusion通过增强接收域和特征图重用，显著提升了高光谱图像融合的重建质量和数据利用效率。

###【arXiv:2501.04665v1】
###【git】
###【期刊】
###【领域】高光谱成像融合

[推荐指数：4]

HyFusion在高光谱图像融合领域提出了创新的方法，显著提升了重建性能和数据效率，且算法紧凑高效，具有较高的应用价值。

—第16篇----

=====

FlairGPT: Repurposing LLMs for Interior Designs

🔍 关键词: 语言模型, 室内设计, 布局优化

PDF链接 项目主页

摘要: 室内设计涉及仔细选择和布置物体，以创建符合客户设计要求的美观、功能性和和谐的空间。这一任务尤其具有挑战性，因为成功的设计不仅必须以连贯的风格融入所有必要的物品，还必须确保它们的排列方式最大化可访问性，同时遵循各种经济性和使用性考虑。已经提出了基于数据的解决方案，但这些方案通常是特定于房间或领域的，并且缺乏在最终布局中使用的设计考虑的可解释性。本文研究了大型语言模型（LLMs）是否可以直接用于室内设计。虽然我们发现LLMs尚无法生成完整的布局，但可以通过一种结构化的方式有效地利用它们，灵感来源于室内设计师的工作流程。通过系统地探测LLMs，我们可以可靠地生成物品列表及相关约束，以指导它们的放置。我们将这些信息转换为设计布局图，然后使用现成的约束优化设置解决，以生成最终布局。我们在各种设计配置中将我们的算法与现有的基于LLM的方法和人工设计进行了基准测试，并通过各种量化和定性指标以及用户研究评估结果。总之，我们证明了LLMs在结构化使用时，可以有效地生成多样化的高质量布局，使它们成为创建大规模虚拟场景的可行解决方案。
总结: 本文展示了通过结构化利用大型语言模型，可以有效生成多样且高质量的室内设计布局，成为创建大规模虚拟场景的可行方案。
###【arXiv编号】2501.04648v1
###【git】无
###【期刊】预印本
###【领域】计算机图形学, 自然语言处理, 计算机视觉

[推荐指数：4]

本文创新性地将大型语言模型应用于室内设计领域，结构化地利用LLMs生成高质量布局，并通过综合评估验证其实用性，具有较高的创新性和实用价值。

—第17篇----

=====

Discrete Wavelet Transform-Based Capsule Network for Hyperspectral Image Classification

🔍 关键词: 高光谱图像分类, 离散小波变换, 胶囊网络, 频谱-空间信息, 注意力机制

链接1

摘要: 高光谱图像（HSI）分类是构建大规模地球监测系统的关键遥感技术。与传统视觉图像相比，HSI包含更多用于识别地表覆盖类别的信息。最近一种可行的解决方案是利用胶囊网络（CapsNets）来捕捉频谱-空间信息。然而，由于堆叠胶囊层之间的全连接架构，这些方法需要高计算要求。为解决这一问题，本文提出了一种基于离散小波变换（DWT-CapsNet）的模型，通过在CapsNet中识别部分但重要的连接，实现有效且高效的HSI分类。具体而言，我们将定制的注意力机制集成到基于DWT的下采样层中，缓解了常规下采样操作在特征提取器中信息损失的问题。此外，我们提出了一种新颖的多尺度路由算法，剪枝了CapsNet中大部分连接。设计了一个胶囊金字塔融合机制，以聚合多个粒度级别的频谱-空间关系，随后在部分和局部连接的架构中进行自注意力机制，以强调有意义的关系。实验证明，我们的方法在保持较低计算需求（包括运行时间、FLOPs和参数数量）的同时，实现了最先进的准确率，使其在HSI分类的实际应用中具有吸引力。
总结: 本文提出了一种高效且准确的基于离散小波变换的胶囊网络，用于高光谱图像分类，显著提升了性能并降低了计算需求。
###【arXiv编号】2501.04643v1
###【git】
###【期刊】
###【领域】计算机视觉, 遥感

[推荐指数：4]

=====

—第18篇----

=====

MADation: Face Morphing Attack Detection with Foundation Models

🔍 关键词: 面部识别、形态攻击检测、基础模型、CLIP、LoRA

PDF链接

摘要: 尽管近年来人脸识别算法的性能有了显著提升，但同样的科学进步也可能被用于创建有效的攻击方式，威胁其安全部署。形态攻击检测（MAD）系统旨在在早期阶段检测特定类型的威胁，即形态攻击，防止它们在关键流程中被用于验证。基础模型（FM）通过大量无标签数据学习，实现了对未见领域的显著零样本泛化。尽管在处理如MAD等领域特定的下游任务时，这种泛化能力可能较弱，但FM可以在保留预训练期间获得的内建知识的同时，轻松适应这些设置。在本研究中，我们认识到FM在适当适应其特定性后，在MAD任务中表现出色的潜力。为此，我们使用LoRA权重调整FM CLIP架构，同时训练分类头。所提出的框架MADation超越了我们的替代FM和基于变压器的框架，并构成了FM首次适应于MAD任务。MADation在文献中的当前MAD解决方案中表现出竞争性，甚至在多个评估场景中超越了它们。为了鼓励可重复性并促进MAD的进一步研究，我们在https://github.com/gurayozgur/MADation公开发布了MADation的实现。
总结: MADation通过调整基础模型，显著提升了形态攻击检测的性能，并在多个评估场景中优于现有解决方案。
###【arXiv编号】arXiv:2501.03800v2
###【git】https://github.com/gurayozgur/MADation
###【期刊】未发布
###【领域】计算机科学，计算机视觉，计算机安全

[推荐指数：4]

MADation创新性地将基础模型应用于形态攻击检测任务，展示了卓越的性能和实用性，具有较高的研究和应用价值。

—第19篇----

=====

Disentangled Clothed Avatar Generation with Layered Representation

🔍 关键词: 分层表示, 分离生成, 衣物化身, 扩散模型, UV特征平面

项目页面

PDF链接

摘要: 衣物化身生成在虚拟和增强现实、电影制作等领域有广泛应用。之前的方法在生成多样的数字化身方面已经取得成功，然而，生成具有分离组件（如身体、头发和衣物）的化身长期以来一直是一个挑战。本文提出了LayerAvatar，这是第一个基于扩散的前馈方法，用于生成组件分离的衣物化身。为此，我们首先提出了一种分层的UV特征平面表示，其中组件分布在高斯基的UV特征平面的不同层，并具有相应的语义标签。这种表示支持高分辨率和实时渲染，以及包括可控姿势和面部表情在内的富有表现力的动画。基于精心设计的表示，我们训练了一个单阶段扩散模型，并引入约束项以解