超分论文笔记2020CVPR视频超分：Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN

原创

已于 2022-07-26 15:49:43 修改 · 1.3k 阅读

标签

#深度学习 #神经网络 #机器学习

于 2020-09-11 16:34:33 首次发布

本文介绍三种视频超分辨率(VSR)方法：ZoomingSlow-Mo、TemporalGroupAttention和TDAN。ZoomingSlow-Mo提出了一种统一的one-stage框架，通过自适应学习插值函数和可变形ConvLSTM实现时空超分。TemporalGroupAttention通过分组注意力机制有效整合时间信息，提高细节恢复。TDAN采用可变形卷积解决VSR中的帧对齐问题，减少伪影。

Space-Time Video Super-Resolution (STVSR) 问题定义：
从一个低像素低帧率恢复出高帧率高分辨率的视频。

1.Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

代码链接

1.1 总结

之前的一些方法采用手工制作的正则化方法，并做出比较强的假设，这些方法限制了模型的容量和扩展到更多样的模式，同时计算量大。
现在的一些深度学习的方法，一种直接的方法是组合对视频插针和视频超分，形成一个two-stage方式。先对LR视频进行查证，然后重建高分辨率图像。然而这两部分是结合在一起的，使用two-stage的方式将这两部分分开。
作者提出了一个统一的one-stage STVSR框架通过做时间和空间的超分。提出了自适应学习一个可变形的特征插值函数来临时插值中间LR帧特征，而不是像两阶段方法那样合成像素级LR帧。插值函数可以集合local temporal contexts，可以处理复杂的运动。同时引入了一个新的可变性的ConvLSRM模型利用全局纹理信息，并同时进行时空对齐和聚合。然后通过一个深度SR重建网络从聚合的LR特征重建HR视频。

1.2 方法

任务设定：
给了低帧低分辨率视频序列： $I^{L} = \{I_{2t-1}^L\}_{t=1}^{n+1}$ ，重建出对应的高分辨率慢动作视频序列： $I^H = \{I_t^H\}_{t=1}^{2n+1}$ 。对于中间从帧 ${I_{2t}^H\}_{t=1}^n$ ，没有对应的低像素输入。
作者提出了一个一阶段的空间时间超分框架。包括了四部分：

feature extractor
frame feature temporal interpolation module
deformable ConvLSTM
HR frame reconstructor

1.2.1 Frame Feature Temporal Interpolation

这个模块的设计如下所示。以往的方法是先得到中间帧的低分辨率图像，其实就是把视频超分分成了两部分。这个网络是直接得到中间帧的特征，然后通过上一帧，中间帧和下一帧的低分辨率特征做超分。
所以这个模块主要是做中间层的特征。让前一帧得到一个前向运动信息，后一帧得到后向运动信息，合在一起得到中间帧的特征，所以得到了两个offset field。然后通过一个混合函数得到最后的特征。
$F_2^L = \alpha * T_1(F_1^L, \Phi_1) + \beta * T_3(F_3^L,\Phi_3)$
这里觉得还挺不错的， $\alpha$ 和 $\beta$ 是两个可学习的 $\times 1$

最低0.47元/天解锁文章