视频理解文献总结

这篇博客总结了三篇关于视频理解的论文,涉及弱监督时空异常检测、视频情感分析和弱监督密集视频字幕生成。在异常检测中,提出了一种多实例学习框架,利用量子概率神经模型处理多模态情感分析,并通过知识蒸馏和交叉模态匹配解决弱监督密集视频字幕任务。

1_Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video_IJCAJ2021

监控视频中的弱监督时空异常检测

模型的输入:视频片段(管级示例和视频级示例)

模型的输出:示例的异常得分(根据异常得分将异常示例与正常示例分开)

1、研究对象或者研究任务是什么?

监控视频中的弱监督时空异常检测(WSSTAD),WSSTAD的目标是定位一个时空管(即一个连续时间的包围框序列),它包围了一个未修剪视频中的异常事件的轨迹。如图1所实的实例(碰撞中的两辆车)。

2、解决该任务的什么问题?

1)该问题的弱监督本质是,在训练过程中,时间段级标签和空间区域级标签都不可用

2)该定位任务跨越时空维度,空间细节和时间相关性可作为不同粒度级别的线索。如何利用这些多粒度的信息共同促进模型的训练仍是一个有待研究的问题。

3)一些异常如“道路事故”涉及到物体之间的相互作用,因此自动推断视频中物体之间的潜在关系是一个固有的挑战。

3、如何解决该问题的?

为了解决这一任务,我们将其表述为一个多实例学习问题。我们提取了两种管道级实例建议,并将它们输入到管道分支中,以捕获空间线索。将异常与单个实例区分开来并非易事,因此我们将信息在多个实例之间传播,以便做出更全面的预测。具体来说,每个分支都采用了一个关系建模模块,该模块采用了多头自注意机制来捕捉视频对象之间的关系,从而融合上下文信息和复杂的实体行为关系进行异常推理。由于每个分支有助于捕获不同粒度级别上的异常抽象,我们可以直观地将学习到的概念从一个分支转移到另一个分支。为此,我们提出了一种新的相互引导渐进细化(MGPR)框架,该框架包含了一种循环的双路径相互引导机制,以迭代的方式促进优化过程。我们的实验表明,双路径循环引导协调相互加强两个训练过程,并逐步提高性能。

4、文章的主要贡献。

1)我们提出了一个新的任务WSSTAD来定位一个语义上对应异常事件的时空管道,在训练过程中不依赖任何时空标注。

2)为了解决这一问题,MGPR框架旨在将学习到的抽象知识跨分支进行转移,在整个框架中鼓励相互指导和逐步细化。

3)我们提供了两个数据集,为异常视频提供细粒度的管级注释,作为基准。

4)进行了深入的分析,以证明所提出的框架的有效性超过一些竞争的方法,并讨论了更有助于处理这一任务的关键因素。

5、模型架构

6、数据集(没有公开)

构建了一个新的数据集(标记为ST-UCF-Crime),用于标注UCF-Crime中异常事件的时空边界框[Sultani等人,2018],该数据集包含复杂监控场景中不同类别的异常视频。此外,我们贡献了一个新的数据集,即时空道路事故(Spatio-Temporal Road Accident,简称STRA),包含各种道路事故视频,如摩托车撞到汽车,汽车撞到人等。STRA算法有助于在实际交通事故场景中实现细粒度异常检测,促进智能交通的发展。

2_An Entanglement-driven Fusion Neural Network for Video Sentiment Analysis_IJCAJ2021

一种用于视频情感分析的纠缠驱动融合神经网

CMU-MOSEI数据集是自然语言处理和人工智能领域的一个重要资源,主要用于情感分析的研究和应用。它是由卡内基梅隆大学(Carnegie Mellon University,简称CMU)的研究人员创建的,MOSEI是Multimodal Opinion, Sentiment, and Emotion Intensity的缩写,意味着该数据集包含了多模态的意见、情感和情感强度信息。 该数据集的独特之处在于它不仅包含了文本信息,还包括语音的音调、语速、强度等声音特征,以及视频中的面部表情和肢体动作等视觉信息。这种多模态的数据特性使得MOSEI成为研究者们进行深度学习和机器学习,特别是跨模态情感分析的理想选择。 MOSEI数据集覆盖了多种类型的情感表达,包括积极、消极、中性以及更细微的情绪差异。情感强度的量化也是其特色之一,数据集通过0到5的评分系统标记了情感的强度,使得研究者可以不仅仅研究情感的类别,还可以研究情感的强弱程度。 在数据集的构建过程中,研究人员录制了大量视频,然后邀请了专业的标注者对这些视频中的话语进行情感分析和评分。这个过程涉及到声音和视觉信号的自动检测以及语言内容的语义理解,对人工智能算法的识别能力和语义分析能力提出了挑战。 由于数据集的规模较大,并且涵盖了复杂的情感表达模式,它成为了人工智能领域内进行情感分析研究的重要基准数据集。研究者可以使用MOSEI进行单模态或多模态的情感分析任务,比如情感分类、情感强度预测、跨模态情感同步分析等。 使用MOSEI数据集进行研究时,研究者可以采用深度学习的最新技术,如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer模型等,来处理和分析文本、音频和视频数据。此外,多模态学习方法如early fusion、late fusion、以及多模态融合网络等也被广泛应用于处理MOSEI数据集,以期达到更好的情感分析效果。 MOSEI数据集的推出,极大促进了自然语言处理、计算机视觉和语音处理等多个领域的交叉融合研究。它不仅为研究情感分析的学者提供了宝贵的资源,也为开发更加智能和人性化的交互系统奠定了基础。通过这些研究,未来的机器人和智能助手将更加理解用户的情感状态,并作出更合适的反应。 随着人工智能技术的不断进步,CMU-MOSEI数据集也在不断更新和扩充,其在情感分析领域的重要性日益凸显,成为了推动该领域研究不断向前发展的关键力量。通过这个数据集,研究者们可以不断探索新的算法,以期达到更准确、更快速的情感识别和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值