论文笔记 - RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching

最新推荐文章于 2026-03-25 05:11:19 发布

原创

最新推荐文章于 2026-03-25 05:11:19 发布 · 4.1k 阅读

标签

#计算机视觉 #深度学习 #人工智能

这篇博客介绍了RAFT-Stereo，一种将光流网络RAFT应用于立体匹配的创新方法。该方法通过多级卷积GRU实现代价传播，提高了精度和实时性。论文提出的相关性金字塔和多分辨率更新策略增强了信息传播和全局一致性。实验结果显示，RAFT-Stereo在保持高精度的同时实现了实时性能，为立体匹配领域带来了新的突破。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

这篇博客是对论文RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching的阅读笔记。
论文地址位于paper，代码已开源，位于RAFT-Stereo。这篇文章是2021 3DV的best paper。

RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching

本文是一篇将光流算法RAFT迁移至立体匹配领域的文章，基于光流估计网络RAFT，提出了多级卷积GRU实现立体匹配的代价传播。文章对RAFT进行优化，并得到了一个高精度实时模型，能够基本保持精度，而速度很快，适合实时性场景。

1. Introduction

文章首先指出了立体匹配估计深度是计算机视觉的基础问题，而一般的立体匹配工作，重点放在特征提取、构造匹配代价，并对代价进行优化估计视差。文章指出立体匹配与光流估计是具有相似性的，他们都需要预测两张图之间像素的位移，立体匹配针对左右视角的像素偏差，而光流关注前后帧之间的像素位置变化。而二者在目标域的值存在差别，也即校正后的立体匹配图像对只在x水平方向存在便宜，而竖直方向位移均为0。
尽管两个任务具有相似性，但其方法的发展缺有很大差别。立体匹配算法大多用3D卷积神经网络，通过特征提取构造3D cost volume并使用3D卷积从cost volume计算视差图。
而光流算法则更多使用迭代优化的策略。RAFT将图像特征提取后构造cost volume，计算所有像素对之间的correlation，然后通过GRU更新算子，迭代的更新光流。
本文借鉴RAFT估计光流的思路，提出了RAFT-Stereo。考虑到视差估计只考虑水平方向（匹配点在校正图像中处在同一行），因

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看