Space-Time Video Super-Resolution (STVSR) 问题定义:
从一个低像素低帧率恢复出高帧率高分辨率的视频。
1.Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
1.1 总结
之前的一些方法采用手工制作的正则化方法,并做出比较强的假设,这些方法限制了模型的容量和扩展到更多样的模式,同时计算量大。
现在的一些深度学习的方法,一种直接的方法是组合对视频插针和视频超分,形成一个two-stage方式。先对LR视频进行查证,然后重建高分辨率图像。然而这两部分是结合在一起的,使用two-stage的方式将这两部分分开。
作者提出了一个统一的one-stage STVSR框架通过做时间和空间的超分。提出了自适应学习一个可变形的特征插值函数来临时插值中间LR帧特征,而不是像两阶段方法那样合成像素级LR帧。插值函数可以集合local temporal contexts,可以处理复杂的运动。同时引入了一个新的可变性的ConvLSRM模型利用全局纹理信息,并同时进行时空对齐和聚合。然后通过一个深度SR重建网络从聚合的LR特征重建HR视频。
1.2 方法
任务设定:
给了低帧低分辨率视频序列: I L = { I 2 t − 1 L } t = 1 n + 1 I^{L} = \{I_{2t-1}^L\}_{t=1}^{n+1} IL={
I2t−1L}t=1n+1,重建出对应的高分辨率慢动作视频序列: I H = { I t H } t = 1 2 n + 1 I^H = \{I_t^H\}_{t=1}^{2n+1} IH={
ItH}t=12n+1。对于中间从帧 { I 2 t H } t = 1 n \{I_{2t}^H\}_{t=1}^n {
I2tH}t=1n,没有对应的低像素输入。
作者提出了一个一阶段的空间时间超分框架。包括了四部分:
- feature extractor
- frame feature temporal interpolation module
- deformable ConvLSTM
- HR frame reconstructor

1.2.1 Frame Feature Temporal Interpolation
这个模块的设计如下所示。以往的方法是先得到中间帧的低分辨率图像,其实就是把视频超分分成了两部分。这个网络是直接得到中间帧的特征,然后通过上一帧,中间帧和下一帧的低分辨率特征做超分。
所以这个模块主要是做中间层的特征。让前一帧得到一个前向运动信息,后一帧得到后向运动信息,合在一起得到中间帧的特征,所以得到了两个offset field。然后通过一个混合函数得到最后的特征。
F 2 L = α ∗ T 1 ( F 1 L , Φ 1 ) + β ∗ T 3 ( F 3 L , Φ 3 ) F_2^L = \alpha * T_1(F_1^L, \Phi_1) + \beta * T_3(F_3^L,\Phi_3) F2L=α∗T1(F1L,Φ1)+β∗T3(F3L,Φ3)
这里觉得还挺不错的, α \alpha α 和 β \beta β 是两个可学习的 1 × 1 1 \times 1

本文介绍三种视频超分辨率(VSR)方法:ZoomingSlow-Mo、TemporalGroupAttention和TDAN。ZoomingSlow-Mo提出了一种统一的one-stage框架,通过自适应学习插值函数和可变形ConvLSTM实现时空超分。TemporalGroupAttention通过分组注意力机制有效整合时间信息,提高细节恢复。TDAN采用可变形卷积解决VSR中的帧对齐问题,减少伪影。

2383

被折叠的 条评论
为什么被折叠?



