【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose

最新推荐文章于 2025-09-24 16:44:54 发布

原创

最新推荐文章于 2025-09-24 16:44:54 发布 · 5.8k 阅读

标签

#自动驾驶 #深度学习 #pytorch

本文介绍了一种新的视觉定位方法PixLoc，它利用metric learning分离模型参数与场景几何，只需查询图像、三维模型和参考图像，即可进行跨场景定位。方法包括特征金字塔构建、直接对齐和视觉先验融入，以及优化器设置，能有效提取鲁棒特征并进行可微位姿估计。实验对比表明PixLoc在泛化性和精度上优于传统方法，特别适用于大规模和长期定位任务。

本文提出了基于metric learning 的视觉重定位方法，PixLoc。只需要给定一张查询图像和场景的三维模型，以及具有先验位姿的参考图像，即可进行重定位。这种将模型参数与场景几何分离开来的度量学习方法，使得PixLoc能够轻易的泛化到任意场景中。

视觉定位可以被分为三步：

估计场景中的大致位姿
提取鲁棒不变的特征
回归精确的位姿估计值或者场景坐标估计值

其中步骤1，2不受限于某一特定场景，通过图像检索可以解决1，现有的CNN可以提取鲁棒的特征，解决了2。目前步骤3，即位姿估计是通过经典几何方法完成的（特征匹配、图像对齐等），而这些方法均不可微。本文专注于如何提取鲁棒、通用的特征点，使得位姿估计步骤能够做到和场景无关。通过可微的几何估计步骤将位姿估计模块纳入到网络训练过程中，PixLoc能够直接通过位姿误差损失对特征进行监督学习。

论文介绍：PixLoc

已知数据：查询图像，三维场景模型（点云），参考图像序列（多个）
输出：6-Dof 位姿
在这里插入图片描述

1. Localization as image alignment

Image Representation:

本文对查询图像和参考图像，构建特征金字塔，如 $l$ 层的特征图： $Fl∈RWl×Hl×Dl\mathbf{F}^{l} \in \mathbb{R}^{W_{l} \times H_{l} \times D_{l}}$ ，最后对每个通道的特征进行L2正则化，提升不同数据集下的特征稳定性。

Direct alignment:

通过最小化查询图像和参考图像之间的差异进行对齐。将三维点投影到参考图像中，并根据预测的位姿变换到查询图像中，计算插值后对应像素位置的特征残差：
$\mathbf{r}_{k}^{i}=\mathbf{F}_{q}^{l}\left[\mathbf{p}_{q}^{i}\right]-\mathbf{F}_{k}^{l}\left[\mathbf{p}_{k}^{i}\right] \in \mathbb{R}^{D} \\ \mathbf{p}_{q}^{i}=\Pi\left(\mathbf{R} \mathbf{P}_{i}+\mathbf{t}\right)$
最后的总损失是：
$E_{l}(\mathbf{R}, \mathbf{t})=\sum_{i, k} w_{k}^{i} \rho\left(\left\|\mathbf{r}_{k}^{i}\right\|_{2}^{2}\right)\\ \rho为鲁棒损失函数，w_k^i为逐残差权重系数$

最低0.47元/天解锁文章