TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

最新推荐文章于 2026-06-22 22:05:57 发布

原创最新推荐文章于 2026-06-22 22:05:57 发布 · 1.2k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习 #自动化 #运维 #人工智能 #数据库

论文链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10477878

简介

大多数现有的相似性学习方法由于模态差距而不能很好地处理跨模态数据，并且在应用于跨模态数据时存在明显的性能退化。为了解决这个问题，文中提出了一种新颖的跨模态相似性学习方法，称为因果不变交互挖掘（CIIM），旨在有效捕捉不同样本和模态之间的信息关系，从而在统一的度量空间中推导出模态一致的特征嵌入。通过消除模态偏差，CIIM从样本层和特征层两个方面解决了模态间差异问题，并通过因果干预构建模态不变的特征嵌入。具体来说，从样本视图开始，学习单模态和混合模态代理（proxy），以探索跨模态相似性与度量损失。这样，样本到样本和样本到代理的相关性都被考虑在内。此外，采用因果干预以消除模态偏差并在特征方面重建不变的因果嵌入。实验结果表明，CIIM在多个跨模态任务中表现优越。

研究动机

现有的深度度量学习（DML）方法都假设可访问的数据服从独立同分布（i.i.d.），即获得的样本来自相同的模态，如图1（a）所示。

图 1. 传统 DML 范式与跨模态 DML 范式的比较。

然而，在许多现实世界的任务中，我们需要同时处理来自不同模态的数据，例如基于草图的图像检索。对于多模态训练数据，由于缺乏模态感知机制，现有的 DML 方法无法有效地建立不同模态之间的相关性并学习有区别的距离度量。结果，传统DML方法学习到的特征嵌入伴随着显式模态差距，即来自不同领域的同一类别的样本在嵌入空间中广泛分离。例如，如图2（a）所示，在基于草图的图像检索中，嵌入空间中飞机的草图和图像（绿色圆圈和绿色五角星）之间存在较大的间隙。因此，消除模态差异并学习代表性特征嵌入仍然是跨模态 DML 中的重大挑战。

图 2. baseline和我们的方法之间的可视化比较。不同的颜色代表不同的类别，而圆圈和五角星表示来自两种不同模态的样本。

为了缓解模态差距，作者考虑从模态感知硬挖掘和模态不变特征嵌入两个方面改进跨模态 DML：

（1）模态感知硬挖掘：如图 1(a) 和 2(a) 所示，在选择正样本或负样本时，简单地促进类内紧凑性但忽略模态相关信息会导致跨模态 DML 中严重的模态差异。因此，根据模态相关信息设计特定的硬挖掘策略至关重要，该策略可以通过捕获样本和模态之间的相关性来发现模态感知的硬样本对。

（2）模态不变特征嵌入：考虑到模态特定的差异，一个自然的想法是将跨模态数据投影到统一的嵌入空间中，并学习模态一致的表示，并在该空间中保持跨模态的稳定性。这种模态不变的特征嵌入对于准确捕获来自不同模态的样本之间的关系至关重要。

本文旨在通过因果推断来解决这一问题，并提出了具有模态不变性的特征表示方法。

论文贡献

讨论了跨模态 DML 中模态间隙的影响，并从模态感知硬挖掘和模态不变特征嵌入两个方面探索抑制模态差异的方法。
设计了模态相关的交互挖掘模块和模态不变的因果嵌入模块，解决了模态间的样本相关性和特征不一致问题。
通过消除模态偏差，CIIM在多个跨模态任务中显著提升了性能。

因果不变交互挖掘（CIIM）

图 3. CIIM 框架图示。

CIIM框架由两个关键模块组成：

模态相关交互挖掘（MRIM）：为每个类别学习单模态和混合模态的代理，进行样本与代理之间的关系挖掘，以捕获丰富的语义关联。
模态不变因果嵌入（MICE）：通过傅里叶变换的增强方法进行因果干预，生成模态不变的因果嵌入，并通过特征度量损失优化。

1. 模态相关的交互式挖掘

DML的主流方法侧重于从排序后的代理到样本对或样本到样本对中提取类别关系信息。在单模态 DML 中，我们可以根据类别标签轻松地将正样本和负样本（或代理）分配给每个锚点，然后将正样本对拉到一起，同时在度量损失的指导下将负样本对分开。然而，由于忽略了模态相关性，这种经验范式不能以跨模态方式很好地工作。 为了解决这个问题，文中提出了一种新的硬挖掘策略，即模态相关交互式挖掘，同时考虑类别和模态关系，可以获得更丰富的语义信息来学习模态一致的嵌入。

图 4. 所提出的与模态相关的交互式挖掘的图示。（a）跨模态硬关系挖掘：给定锚样本，迫使其更接近具有相同标签但不同模态的单模态代理，同时更远离具有不同标签和不同模态的单模态代理。 (b)模态内硬关系挖掘：给定锚点，将具有相同标签的混合模态代理视为正样本，同时选择来自不同类别但相同模态的样本作为正样本。

硬关系挖掘： DML 方法充分利用每个小批量中的样本对来优化度量损失。然而，利用这些复杂的样本到样本关系对于跨模态 DML 来说是无效的，因为太简单或太困难的样本对都会阻碍模型性能。由于模态差异，由同一类但不同模态的样本组成的正对可能难以对齐在一起。相比之下，来自不同类别和模态的样本可以很容易地分离，因为这些样本之间的间距自然很大。另一方面，基于代理的方法仅采用代理与样本的关系，而忽略了信息丰富的样本与样本的关系。因此，文中引入了一种新的挖掘策略，在统一的框架中挖掘样本到样本和代理到样本的相关性。

不同的度量损失函数分别测量样本到样本和代理到样本的相关性。文中推导出一个统一的度量损失来同时处理两种丰富的语义关系。形式上，给定一个带有 P 个正参考和 Q 个负参考的锚样本 a，将统一度量损失定义为：

其中，，γ 表示比例因子。通过硬挖掘退化为triplet损失：

因此，这种度量损失可以进行硬关系挖掘，这有助于模型学习更好的决策边界。

模态内硬关系挖掘： 为了强制类内紧凑性，使每个样本与其混合模态代理更接近。混合模态代理是使用同一类的所有样本计算的，无论模态如何。由于不同模态形成的负样本对对优化贡献不大，因此我们只考虑模态内的负样本对。如图4（a）所示，鼓励每个锚样本接近其相应的混合模态代理，同时远离相同模态的负样本。结合正代理样本对和负样本样本对，模态度量损失为：

其中是锚样本与其对应的混合模态代理之间的正相似度得分。总之，将样本拉近其混合代理，同时将它们推离同一模态的负样本，可以有效地增强跨模态的类内紧凑性，这有助于消除模态差距。

跨模态硬关系挖掘： 如图4（b）所示，迫使锚样本更接近其他模态的正单模态代理，同时更远离其他模态的负单模态代理。为每个类学习两个不同的单模态代理，即每种模态的数据用于学习特定的代理集。通过两组单模态代理，得出跨模态度量损失：

多个代理生成：通过使用广泛使用的交叉熵损失来学习上面提到的代理。给定训练数据集中的所有样本及其在度量空间中的特征嵌入，学习混合代理如下：

2. 模态不变因果嵌入

在DML中，从原始数据中提取语义信息并将其嵌入到度量空间中的学习特征中。挖掘丰富的语义关系有助于我们获取更多信息，这有利于判别性特征嵌入。然而，跨模态 DML 中可访问的语义信息本质上与模态特征相关的有害因素相混淆。因此，文中从因果角度形式化跨模态 DML 问题，探索底层因果模型并学习模态不变因果嵌入，这可以有效过滤掉混杂因素。

图 5. (a) 跨模态 DML 的结构因果模型：因果因素 S 和非因果因素 U 同时影响输入 X 和输出距离度量 M 。进行因果干预是为了滤除 U 的混杂因素。 (b) 非因果嵌入和我们提出的因果嵌入之间的比较：学习到的因果嵌入满足属性。

跨模态 DML 的因果视角： 作者提出了如图 5（a）所示的结构因果模型（SCM）来形式化跨模态 DML 问题从因果角度来看，旨在发现数据 X 和特征嵌入 Z 之间的自然因果机制。直观地说，与类别相关的信息，例如“形状”应该独立于模态，而与模态相关的信息，例如“风格”，独立于类别。前者因果上有助于特征嵌入的辨别能力，而后者则混淆了来自不同模态的样本之间的相关性。基于此，文中假设类别相关信息和模态相关信息分别为因果因子S和非因果因子M。

因果因素和因果嵌入： 在实践中，我们不能直接分解嵌入 Z = g(S, M ) 并过滤掉非因果因素的影响，因为因果因素和非因果因素都是不可观察到的并且无法制定。因此，文中直接学习因果嵌入Z，而不是重构因果因素S。为了确保学习到的因果嵌入的有效性，强迫它们遵守一些与因果因素相同的基本要求。

根据之前对因果机制的研究，文中总结了跨模态 DML 中因果因素 S = {s1,s2,…,sD} 的两个主要和本质属性应满足： 1）因果因素S和非因果因素M应相互独立。 2) 因果因素 s1,s2,…,sD 应相互独立。满足上述因果属性，学习到的因果嵌入将不会受到特定于模态的信息的影响，并且在不同模态中保持不变。如图5（b）所示，满足所有要求的因果嵌入可以抑制模态差异。基于对比的因果干预：为了有效地迫使学习到的因果嵌入具有上述属性，文中对提取的特征嵌入进行基于对比的因果干预。

实验结果

本文在两个经典的跨模态任务中进行了评估：零样本素描-图像检索和跨模态行人重识别。实验结果表明，CIIM方法在这些任务中取得了显著的性能提升，尤其在减少模态差异方面表现突出。此外，消融实验进一步验证了MRIM和MICE模块的有效性。

表 III. ZS-SBIR 分别与 TU-BERLIN 扩展和粗略扩展上最先进的方法的性能比较

表 IV. ZS-SBIR 与最先进的 QUICKDRAW 扩展方法的性能比较

图 8. 左： CIIM方法在 TU-Berlin 数据集的随机选择的 8 个测试类别上使用 64 维特征的 t-SNE可视化结果。圆圈和五角星分别代表自然图像和草图。右：相应的草图到图像检索结果。绿色边框表示正确的检索样本。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述