Monodepth2口臭学习记录2

最新推荐文章于 2026-05-05 09:55:05 发布

原创最新推荐文章于 2026-05-05 09:55:05 发布 · 647 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#计算机视觉

单目几把深度估计专栏收录该内容

8 篇文章

订阅专栏

本文介绍了自监督深度估计方法Monodepth2，重点探讨了自监督训练中的图像重投影误差和改进的单像素最小重投影误差策略。通过最小化重投影误差，提升了深度图的质量，尤其是在处理遮挡问题上。此外，还提出了一种自动掩蔽静止像素的方法，以应对相机静止或物体运动时的深度估计挑战。这些改进提高了单目深度估计的精度和鲁棒性。

接Monodepth2口臭学习记录1

3.1自监督训练

自监督深度估计将学习问题变成视觉合成问题，通过训练一个网络，从另一个图像的视角来预测目标图像。通过约束网络进行图像合成来作为中间变量，在我们的深度和视差情况中，我们可以从模型中提取出可解释的深度。这个问题确实有点毛病，应为每个像素的确切深度有超级大量的可能，这些像素可以准确的重建全新视图，在给定像个视角相对位姿的前提下。经典的双目和夺目立体方法一般通过促使深度图的光滑度来解决这个问题，并且通过计算图像一致性在patchs（？）当通过全局优化来解决每个像素的深度。【Multi-view stereo: A tutorial.】

于【12，15，76】相同，我们也把我们的问题公式化，表示为最小化图像光度的重投影误差在训练时。从每一个原图到目标图像的位姿转换，Tt-t',深度图Dt，我们预测稠密深度图最小化的图像重投影误差Lp，其中。

这里多了个图像重投影误差，需要主要重投影误差和重建误差的区别？

其中pe是图像光度重构误差，比如像素空间的L1距离，proj（）是最为结果的2D坐标属于投射的深度Dt在图像 It‘种，然后<>是采样操作。简化符号，我们假设所有视角的内参K是相同的，（其实是不一样的，苟）。对这【21】我们使用双线性采样来采样源图像，使其局部可微，对着【75，15】使用L1和SSIM来组成图像光度误差函数pe比如。

以上知识涉及到图像重构、图像重构的误差、以及损失函数基本与sfmlearner相同，另外还是用了逆深度。

在立体训练中，我们的源图像是立体相机的第二张图象，是已知相对位姿的，然而相对位姿在单眼序列中是不可知的。【71】显示使用投影方程可以训练一个位姿估计网络来估计相对位姿。在训练期间，我们解决了同时相机位姿和深度来最小化图像重投影误差。

对于单眼训练，我们使用两个帧暂时相邻作为原图，在混合训练中，包括暂时相邻和对面的立体对。

3.2改进的自监督深度估计

现有的单目深度估计方法产生更低质量的深度比最好的全监督模型。为了逼近，我们提出几个改进，明显的提升了深度质量，而且没有使用额外需要训练的模型组成。

每个像素的最小重投影误差

当从多哥源图像计算重投影误差时，现有的自监督深度估计方法将重投影误差平均进每个可用的源图像中（什么勾八？）。这可以导致问题，像素在目标图像中可见，但是在源图像中不可见。

这个也就是说，当对应是好的，那么重投影损失应该很小，然而，遮挡和不遮挡导致像素在当前时间不同时出现在前一帧和下一帧（注意还是3帧，前一帧该像素遮挡）。基本的平均loss方法使模型匹配遮挡像素，然而我们的最小重投影损失方法仅仅匹配每个像素到可见的视角。（遮挡像素，pe误差大，不遮挡的pe误差小，那我就用不遮挡的也就是说误差小的像素匹配？，具体是啥还需要看看代码）导致结果牛逼了。

如果这个网络预测正确的深度，相对应的颜色在一个遮挡的源图像中很可能不能匹配上目标图像，导致高的光度误差。这个有问题的像素来源于两类，处于视野外的（out of view）像素由于在图像边缘自我移动和遮挡的像素。处于视野外的像素的影像可以被减少通过作掩膜掩掉在重投影过程（？）中，但这并不能处理disocclusion，平均重投影可能会导致模糊的深度不连续。（没看东）

我们提出了提升，一次性处理上述问题。每个像素，不是在所有源图像（其实是前一帧和下一帧？）上平均光度误差，我们简单的用最小值。我们最终的每个像素的光度误差是：

是用最小重投影误差明显减少了伪影在图像边界，提升遮挡便边框的锐度，是精度提升。

在MStraining（但双目混合训练？）种最小重投影误差的好处。右上角的图中的颜色表示选用了下面的那张图中的像素。（由于使用了最小化重投影误差，他能够在一定程度上解决遮挡问题。但是这种方法可能仅限于混合训练）

自动掩蔽静止像素

自监督的弹幕训练经常在一个运动相机和精致场景的假设下操作，当这些假设被打破，比如当相机静止了或者场景中有运动物体，表现就难受的一批。这个问题可以表现为“洞洞”或者无线深的深度在测试时时，对于物体一般被观察到在训练时运动【38】。这个促使我们的第二个贡献，一个简单的自动掩蔽方法过滤掉我们的在序列中一帧到下一帧之间不改变样子的像素。这就产生让网络忽略与相机运动速度同样的物体，甚至忽略整个帧在单目视频中，但相机不动时。

与其他工作一样，我们也应用每个像素的掩膜μ到损失上，有选择性的给像素加权。然而，与之前的工作相反，我们的mask（掩膜）是二值化的，所以μ不是0就是1，并且是自动计算的在网络前向传播过程中，而不是在物体运动种被学到或者被估计。我们观察在序列中相邻帧之间保持不变的像素，经常表相机静止，一个物体的移动与相机的移动相当，或者低纹理区域。我们因此设置μ来仅仅包括扭曲（warped）后图像（It’-t）的重投影误差比非扭曲源图像It‘低的像素的误差，即：