TACFN:基于Transformer的多模态情感识别自适应跨模态融合网络

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Llama
文本生成
图像识别

视觉理解:图像识别、OCR、实体定位、计数、空间理解、GUI 交互 多模态推理:看图问答、图文理解、复杂逻辑推理(STEM、数学、代码)

TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

TACFN:基于Transformer的多模态情感识别自适应跨模态融合网络

发布于 2025.5.10 CAAI Artificial Intelligence Research

论文链接:arxiv.org/pdf/2505.06536

实验代码:https://github.com/shuzihuaiyu/TACFN

  • 简介

近年来,基于跨模态注意力的融合方法展现出卓越性能和强大的鲁棒性,然而,跨模态注意力机制存在特征冗余的问题,难以有效捕捉互补特征。作者发现,在跨模态交互过程中,无需使用某一模态的全部信息来增强另一模态,且能够增强某模态的特征可能仅需其部分信息。为此,作者设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。

  • 多模态融合技术

分为早期融合、晚期融合和模型融合。

近年来,基于transformer模型在多模态机器学习任务中的广泛应用,模型融合通常采用基于Transformer的方法处理不同模态间的交互。

此外,最新研究表明,在高层融合场景中,跨模态注意力机制展现出显著优势。

跨模态注意力机制面临着

  • TACFN

  1. 音频编码器

先对音频进行预处理(MFCC),得到音频特征矩阵Xa。

Ka表示一维卷积核的宽度。

Maxpool:最大池化,在保留显著特征的同时,降低计算成本,防止过拟合,增强鲁棒性

  1. 视频编码器

使用了3D ResNeXt网络

  1. 跨模态注意力融合

该编码器由L个跨模态Transformer层构成,每个跨模态Transformer层包含多头跨模态注意力模块(MCA)、层归一化模块(LN)以及采用残差连接的多层感知机模块(MLP)。

MLP是对单个时间步(token)做深度非线性重组。

组合起来来看,公式如下:

前者强化音频,后者强化视频。

  1. 自适应跨模态块融合

跨模态注意力融合存在以下的问题:①特征冗余②跨模态注意力不能很好地捕捉互补特征③由于模态动态的变化,其中一些模式对人物具有比其他模态更多的表示信息。

为了解决上述几个问题,作者提出了自适应跨模态融合

简单来说,和跨模态注意力融合的区别如下(以音频加强视频为例子):
1、在注意力机制板块,做的是自注意力

2、自注意力得到的两种模块的输入为XA和XV,我们对两个输出做交叉强化,即相加并且tanh。相加可以保证视音频的信息融合,tanh进行归一化和非线性。

3、用音频加强视频。

沿通道维执行 softmax 得到归一化权重向量后,与视觉特征Xv逐元素相乘,实现自适应视频加权,使高响应区域获得更大增益而抑制无关区域;随后通过残差连接将加权结果与原始 Xv 相加,实现增强特征与输入特征的线性回流,既保留完整视觉信息又提升互补线索表达,同时确保梯度顺畅回传与训练稳定性。

这样的调整能够去除掉冗杂的特征向量,也可以有效的补充互补信息。

  1. 分类

最后,我们使用融合后的数据进行情感类别预测,采用交叉熵损失函数来优化模型,具体公式如下:

  • 实验
  1. 实验目的

验证TACFN的有效性

2、数据集

RAVDESS:语音与歌曲数据库的多模态情感识别数据集。

IEMOCAP:多模态情感识别数据集。

3、对比基准

现有的最先进的方法

视听情感识别:MMTM、MSAF等

多模态情感识别:EF-LSTM、RAVEN等

  1. 实验结果

在RAVDESS与IEMOCAP两个数据集上,TACFN 以完全相同的视觉/音频特征与训练设定同 10 余种主流方法公平对比:RAVDESS 准确率从最佳基线 74.58 % 提升至 76.76 %,IEMOCAP的F1-score与当前 SOTA PMR 持平但参数量仅其 1/6。这证明了TACFN的有效性。

消融实验表明自适应模块单独贡献 3 % 以上,证明去冗余-提互补策略在保持轻量的同时带来稳定且显著的性能增益。

  • 启示与思考

对于多模态SA大模型的改进可以从两个方向去考虑:优化模型的结构以及优化多模态的融合。这篇文章就提出了一种更加新的融合大模型的方法——TACFN。

这种方法没有用一种模态的所有信息来加强另一种信息,而是采用了注意力机制来选取模态中的重要的特征。

在未来的研究中,我们可以思考以下的课题:

  1. 与MSE-Adapter插件结合?(参考论文:MSE-Adapter: A Lightweight Plugin Endowing LLMs with the Capability to Perform Multimodal Sentiment Analysis and Emotion Recognition)
  2. 把文章中提到的TACFN设计为插件,可以自由地插入大模型中,将大模型训练为专门解决SA的问题。
  3. 论文考虑了音频和视频的交叉加强,但是很多情况下都有文本模态,我们可以考虑如何把文本融入进来。

您可能感兴趣的与本文相关的镜像

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

Llama
文本生成
图像识别

视觉理解:图像识别、OCR、实体定位、计数、空间理解、GUI 交互 多模态推理:看图问答、图文理解、复杂逻辑推理(STEM、数学、代码)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Samdy L

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值