暑假听了computer vision的一个Summer School,里面Jason J. Corso讲了他们运用Low-Mid-High层次结构进行Video Understanding 和 Activity Recognition的方法,受益颇深,在这里把他的方法总结一下:
-------------------------------------------------------------------------------------------------
1. 层次结构表示:
- 底层part 重用
- 每个object都是一个由有向和无向边连接起来的混合图
- 底层通过非线性学习让原子节点形成时空线、平面和区域
人的活动呢,就是这些object在中层和高层连接的混合图

2. Motion Perception——STS

Different action stimulate different subpopulation of cells.
3. Activity Recognition
Corso的方法:
- Low-Level:底层最effective的做法是Bag of Features,特征为bottom-up / low level的时空特征,随着时间和层次不断update。通过模版进行底层object检测;
- Mid-Level:中间层从images中检测、跟踪2D骨架pose,并通过背景内容分析动态pose;
- High-Level:高层活动组合方法为,将不同时间点的feature组成时间-概率模型。时间上进行feature的时空跟踪,概率上根据组成语法进行概率模型的组合。
- Recognition的另一种表示方法:Segmentation

本文介绍了计算机视觉领域的行为识别技术,包括低、中、高三层结构的视频理解方法,如Bag of Features、时空特征、2D骨架检测、轨迹描述子等。还涉及到Action Bank的概念,以及基于人体姿势和部分的活动识别技术。KLT特征跟踪、密集轨迹和Action Bank特征向量用于提升识别效果,同时探讨了视频分割方法,如基于流向的马尔科夫假设分割框架。
242

被折叠的 条评论
为什么被折叠?



