基于Deep Learning 的视频识别方法概览

本文介绍了基于深度学习的视频识别方法,包括单帧识别、CNN扩展网络、双路CNN、LSTM和3D CNN等技术,探讨了它们在视频理解、目标检测和动作识别中的应用。同时,提到了阿里聚安全内容安全在视频识别领域的实践。

深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者。互联网视频在最近几年也特别火,短视频、视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器。当这两个火碰在一起,会产生什么样的化学反应呢?

不说具体的技术,先上一张福利图,该图展示了机器对一个视频的认知效果。其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities。

图1


人工智能在视频上的应用主要一个课题是视频理解,努力解决“语义鸿沟”的问题,其中包括了:

    · 视频结构化分析:即是对视频进行帧、超帧、镜头、场景、故事等分割,从而在多个层次上进行处理和表达。

    · 目标检测和跟踪:如车辆跟踪,多是应用在安防领域。

    · 人物识别:识别出视频中出现的人物。

    · 动作识别:Activity Recognition, 识别出视频中人物的动作。

    · 情感语义分析:即观众在观赏某段视频时会产生什么样的心理体验。


短视频、直播视频中大部分承载的是人物+场景+动作+语音的内容信息,如图1所示,如何用有效的特征对其内容进行表达是进行该类视频理解的关键。传统的手工特征有一大堆,目前效果较好的是iDT(Improved Dense Trajectories) ,在这里就不加讨论了。深度学习对图像内容的表达能力十分不错,在视频的内容表达上也有相应的方法。下面介绍最近几年主流的几种技术方法。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值