TACFN：基于Transformer的多模态情感识别自适应跨模态融合网络

最新推荐文章于 2026-06-24 14:51:23 发布

原创最新推荐文章于 2026-06-24 14:51:23 发布 · 1k 阅读

·

11

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#transformer #深度学习 #人工智能 #llama #自然语言处理

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Llama

文本生成

图像识别

视觉理解：图像识别、OCR、实体定位、计数、空间理解、GUI 交互多模态推理：看图问答、图文理解、复杂逻辑推理（STEM、数学、代码）

TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

TACFN：基于Transformer的多模态情感识别自适应跨模态融合网络

发布于 2025.5.10 CAAI Artificial Intelligence Research

论文链接：arxiv.org/pdf/2505.06536

实验代码：https://github.com/shuzihuaiyu/TACFN

简介

近年来，基于跨模态注意力的融合方法展现出卓越性能和强大的鲁棒性，然而，跨模态注意力机制存在特征冗余的问题，难以有效捕捉互补特征。作者发现，在跨模态交互过程中，无需使用某一模态的全部信息来增强另一模态，且能够增强某模态的特征可能仅需其部分信息。为此，作者设计了一种创新的基于Transformer的自适应跨模态融合网络（TACFN）。

多模态融合技术

分为早期融合、晚期融合和模型融合。

近年来，基于transformer模型在多模态机器学习任务中的广泛应用，模型融合通常采用基于Transformer的方法处理不同模态间的交互。

此外，最新研究表明，在高层融合场景中，跨模态注意力机制展现出显著优势。

跨模态注意力机制面临着

TACFN

音频编码器

先对音频进行预处理（MFCC），得到音频特征矩阵Xa。

Ka表示一维卷积核的宽度。

①

②

③

Maxpool：最大池化，在保留显著特征的同时，降低计算成本，防止过拟合，增强鲁棒性

④

视频编码器

使用了3D ResNeXt网络

跨模态注意力融合

该编码器由L个跨模态Transformer层构成，每个跨模态Transformer层包含多头跨模态注意力模块（MCA）、层归一化模块（LN）以及采用残差连接的多层感知机模块（MLP）。

MLP是对单个时间步（token）做深度非线性重组。

组合起来来看，公式如下：

前者强化音频，后者强化视频。

自适应跨模态块融合

跨模态注意力融合存在以下的问题：①特征冗余②跨模态注意力不能很好地捕捉互补特征③由于模态动态的变化，其中一些模式对人物具有比其他模态更多的表示信息。

为了解决上述几个问题，作者提出了自适应跨模态融合

简单来说，和跨模态注意力融合的区别如下（以音频加强视频为例子）：
1、在注意力机制板块，做的是自注意力

2、自注意力得到的两种模块的输入为XA和XV，我们对两个输出做交叉强化，即相加并且tanh。相加可以保证视音频的信息融合，tanh进行归一化和非线性。

3、用音频加强视频。

沿通道维执行 softmax 得到归一化权重向量后，与视觉特征Xv逐元素相乘，实现自适应视频加权，使高响应区域获得更大增益而抑制无关区域；随后通过残差连接将加权结果与原始 Xv 相加，实现增强特征与输入特征的线性回流，既保留完整视觉信息又提升互补线索表达，同时确保梯度顺畅回传与训练稳定性。

这样的调整能够去除掉冗杂的特征向量，也可以有效的补充互补信息。

分类

最后，我们使用融合后的数据进行情感类别预测，采用交叉熵损失函数来优化模型，具体公式如下：

实验

实验目的

验证TACFN的有效性

2、数据集

RAVDESS：语音与歌曲数据库的多模态情感识别数据集。

IEMOCAP：多模态情感识别数据集。

3、对比基准

现有的最先进的方法

视听情感识别：MMTM、MSAF等

多模态情感识别：EF-LSTM、RAVEN等

实验结果

在RAVDESS与IEMOCAP两个数据集上，TACFN 以完全相同的视觉/音频特征与训练设定同 10 余种主流方法公平对比：RAVDESS 准确率从最佳基线 74.58 % 提升至 76.76 %，IEMOCAP的F1-score与当前 SOTA PMR 持平但参数量仅其 1/6。这证明了TACFN的有效性。

消融实验表明自适应模块单独贡献 3 % 以上，证明去冗余-提互补策略在保持轻量的同时带来稳定且显著的性能增益。

启示与思考

对于多模态SA大模型的改进可以从两个方向去考虑：优化模型的结构以及优化多模态的融合。这篇文章就提出了一种更加新的融合大模型的方法——TACFN。

这种方法没有用一种模态的所有信息来加强另一种信息，而是采用了注意力机制来选取模态中的重要的特征。

在未来的研究中，我们可以思考以下的课题：

与MSE-Adapter插件结合？（参考论文：MSE-Adapter: A Lightweight Plugin Endowing LLMs with the Capability to Perform Multimodal Sentiment Analysis and Emotion Recognition）
把文章中提到的TACFN设计为插件，可以自由地插入大模型中，将大模型训练为专门解决SA的问题。
论文考虑了音频和视频的交叉加强，但是很多情况下都有文本模态，我们可以考虑如何把文本融入进来。

您可能感兴趣的与本文相关的镜像

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Llama

文本生成

图像识别

视觉理解：图像识别、OCR、实体定位、计数、空间理解、GUI 交互多模态推理：看图问答、图文理解、复杂逻辑推理（STEM、数学、代码）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Samdy L 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。