【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose

本文介绍了一种新的视觉定位方法PixLoc,它利用metric learning分离模型参数与场景几何,只需查询图像、三维模型和参考图像,即可进行跨场景定位。方法包括特征金字塔构建、直接对齐和视觉先验融入,以及优化器设置,能有效提取鲁棒特征并进行可微位姿估计。实验对比表明PixLoc在泛化性和精度上优于传统方法,特别适用于大规模和长期定位任务。

本文提出了基于metric learning 的视觉重定位方法,PixLoc。只需要给定一张查询图像和场景的三维模型,以及具有先验位姿的参考图像,即可进行重定位。这种将模型参数与场景几何分离开来的度量学习方法,使得PixLoc能够轻易的泛化到任意场景中。

视觉定位可以被分为三步:

  1. 估计场景中的大致位姿
  2. 提取鲁棒不变的特征
  3. 回归精确的位姿估计值或者场景坐标估计值

其中步骤1,2不受限于某一特定场景,通过图像检索可以解决1,现有的CNN可以提取鲁棒的特征,解决了2。目前步骤3,即位姿估计是通过经典几何方法完成的(特征匹配、图像对齐等),而这些方法均不可微。本文专注于如何提取鲁棒、通用的特征点, 使得位姿估计步骤能够做到和场景无关。通过可微的几何估计步骤将位姿估计模块纳入到网络训练过程中,PixLoc能够直接通过位姿误差损失对特征进行监督学习。

论文介绍:PixLoc

已知数据:查询图像,三维场景模型(点云),参考图像序列(多个)
输出:6-Dof 位姿
在这里插入图片描述

1. Localization as image alignment

Image Representation:

本文对查询图像和参考图像,构建特征金字塔,如lll层的特征图:Fl∈RWl×Hl×Dl\mathbf{F}^{l} \in \mathbb{R}^{W_{l} \times H_{l} \times D_{l}}FlRWl×Hl×Dl, 最后对每个通道的特征进行L2正则化,提升不同数据集下的特征稳定性。

Direct alignment:

通过最小化查询图像和参考图像之间的差异进行对齐。将三维点投影到参考图像中,并根据预测的位姿变换到查询图像中,计算插值后对应像素位置的特征残差:
rki=Fql[pqi]−Fkl[pki]∈RDpqi=Π(RPi+t) \mathbf{r}_{k}^{i}=\mathbf{F}_{q}^{l}\left[\mathbf{p}_{q}^{i}\right]-\mathbf{F}_{k}^{l}\left[\mathbf{p}_{k}^{i}\right] \in \mathbb{R}^{D} \\ \mathbf{p}_{q}^{i}=\Pi\left(\mathbf{R} \mathbf{P}_{i}+\mathbf{t}\right) rki=Fql[pqi]Fkl[pki]RDpqi=Π(RPi+t)
最后的总损失是:
El(R,t)=∑i,kwkiρ(∥rki∥22)ρ为鲁棒损失函数,wki为逐残差权重系数 E_{l}(\mathbf{R}, \mathbf{t})=\sum_{i, k} w_{k}^{i} \rho\left(\left\|\mathbf{r}_{k}^{i}\right\|_{2}^{2}\right)\\ \rho为鲁棒损失函数,w_k^i为逐残差权重系数 El<

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值