基于场景对视频进行划分
首先我们希望将视频根据场景的特点划分成不同的片段,这样最终返回给用户的结果,是包含各个转场的关键视频片段,而非盲目地将剪辑出全部片段。关于进行划分的算法我们进行了初步的调研,预计主要借鉴论文” A Local-to-Global Approach to Multi-modal Movie Scene Segmentation”(Rao, A. , et al. IEEE 2020)。其基本思想是通过三个阶段执行场景分割:首先从多个效果中提取镜头表示,而后根据集成信息进行局部预测,最后通过解决全局优化问题优化镜头分组。
一种局部到全局的多模态电影场景分割方法
场景和镜头是有本质区别的。一般来说,镜头是由连续工作一段时间的摄像机拍摄的,因此在视觉上是连续的;而场景是更高层次的语义单位。
开源项目 - DpCas 镜头场景分割 Scene Segmentation
dpcas(Deep Learning Componentized Application System):深度学习组件化应用系统。
- 为了更好更快的将已有的模型进行快速集成,实现应用。
- 该项目会尝试推出其它类型或是不同行业领域的项目应用。
项目简介
1、DpCas架构介绍
2、算法组件
3、项目案例
DpCas架构介绍
DpCas FrameWork
- DpCas的FrameWork如下图所示:

xxx_lib(应用支持库)
- 具体应用对应的支持库,包括3部分如下图所示:

Application(应用 pipeline)
- 具体应用流程,则是基于项目业务设计的pipeline的具体实现,以业务流为指导,去调用应用支持库(xxx_lib)和 算法组件(components)。

该博客介绍了使用DpCas框架进行视频场景分割的方法,参照了'ALocal-to-GlobalApproachtoMulti-modalMovieSceneSegmentation'论文,通过镜头表示提取、局部预测和全局优化三个阶段实现。DpCas是一个深度学习组件化应用系统,提供多种算法组件,如物体检测、人脸识别等,并给出了基于人脸识别的视频剪辑应用案例。

1180

被折叠的 条评论
为什么被折叠?



