TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition
TACFN:基于Transformer的多模态情感识别自适应跨模态融合网络
发布于 2025.5.10 CAAI Artificial Intelligence Research
实验代码:https://github.com/shuzihuaiyu/TACFN
- 简介
近年来,基于跨模态注意力的融合方法展现出卓越性能和强大的鲁棒性,然而,跨模态注意力机制存在特征冗余的问题,难以有效捕捉互补特征。作者发现,在跨模态交互过程中,无需使用某一模态的全部信息来增强另一模态,且能够增强某模态的特征可能仅需其部分信息。为此,作者设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。
- 多模态融合技术
分为早期融合、晚期融合和模型融合。

近年来,基于transformer模型在多模态机器学习任务中的广泛应用,模型融合通常采用基于Transformer的方法处理不同模态间的交互。
此外,最新研究表明,在高层融合场景中,跨模态注意力机制展现出显著优势。
跨模态注意力机制面临着
- TACFN

- 音频编码器
先对音频进行预处理(MFCC),得到音频特征矩阵Xa。
Ka表示一维卷积核的宽度。
①![]()
②
③
Maxpool:最大池化,在保留显著特征的同时,降低计算成本,防止过拟合,增强鲁棒性
④![]()

- 视频编码器
使用了3D ResNeXt网络


- 跨模态注意力融合
该编码器由L个跨模态Transformer层构成,每个跨模态Transformer层包含多头跨模态注意力模块(MCA)、层归一化模块(LN)以及采用残差连接的多层感知机模块(MLP)。
MLP是对单个时间步(token)做深度非线性重组。



组合起来来看,公式如下:


前者强化音频,后者强化视频。
- 自适应跨模态块融合
跨模态注意力融合存在以下的问题:①特征冗余②跨模态注意力不能很好地捕捉互补特征③由于模态动态的变化,其中一些模式对人物具有比其他模态更多的表示信息。
为了解决上述几个问题,作者提出了自适应跨模态融合

简单来说,和跨模态注意力融合的区别如下(以音频加强视频为例子):
1、在注意力机制板块,做的是自注意力

2、自注意力得到的两种模块的输入为XA和XV,我们对两个输出做交叉强化,即相加并且tanh。相加可以保证视音频的信息融合,tanh进行归一化和非线性。

3、用音频加强视频。
沿通道维执行 softmax 得到归一化权重向量后,与视觉特征Xv逐元素相乘,实现自适应视频加权,使高响应区域获得更大增益而抑制无关区域;随后通过残差连接将加权结果与原始 Xv 相加,实现增强特征与输入特征的线性回流,既保留完整视觉信息又提升互补线索表达,同时确保梯度顺畅回传与训练稳定性。

这样的调整能够去除掉冗杂的特征向量,也可以有效的补充互补信息。
- 分类
最后,我们使用融合后的数据进行情感类别预测,采用交叉熵损失函数来优化模型,具体公式如下:

- 实验
- 实验目的
验证TACFN的有效性
2、数据集
RAVDESS:语音与歌曲数据库的多模态情感识别数据集。
IEMOCAP:多模态情感识别数据集。
3、对比基准
现有的最先进的方法
视听情感识别:MMTM、MSAF等
多模态情感识别:EF-LSTM、RAVEN等
- 实验结果
在RAVDESS与IEMOCAP两个数据集上,TACFN 以完全相同的视觉/音频特征与训练设定同 10 余种主流方法公平对比:RAVDESS 准确率从最佳基线 74.58 % 提升至 76.76 %,IEMOCAP的F1-score与当前 SOTA PMR 持平但参数量仅其 1/6。这证明了TACFN的有效性。
消融实验表明自适应模块单独贡献 3 % 以上,证明去冗余-提互补策略在保持轻量的同时带来稳定且显著的性能增益。
- 启示与思考
对于多模态SA大模型的改进可以从两个方向去考虑:优化模型的结构以及优化多模态的融合。这篇文章就提出了一种更加新的融合大模型的方法——TACFN。
这种方法没有用一种模态的所有信息来加强另一种信息,而是采用了注意力机制来选取模态中的重要的特征。
在未来的研究中,我们可以思考以下的课题:
- 与MSE-Adapter插件结合?(参考论文:MSE-Adapter: A Lightweight Plugin Endowing LLMs with the Capability to Perform Multimodal Sentiment Analysis and Emotion Recognition)
- 把文章中提到的TACFN设计为插件,可以自由地插入大模型中,将大模型训练为专门解决SA的问题。
- 论文考虑了音频和视频的交叉加强,但是很多情况下都有文本模态,我们可以考虑如何把文本融入进来。

1729

被折叠的 条评论
为什么被折叠?



