NeRF论文阅读

原创

已于 2022-07-06 11:46:18 修改 · 1.6k 阅读

标签

#自动驾驶 #人工智能 #3d

于 2022-07-05 10:57:19 首次发布

本文提出了一种通过优化连续5D场景表示来合成复杂场景新视图的方法。该方法使用全连接深度网络表示场景，输出体积密度和依赖于视点的发射辐射。通过分层采样和位置编码改进表示能力，实现在真实世界图像上高质量的新视图合成。

NeRF 论文阅读

论文地址

理解视频

论文翻译

摘要

我们提出了一种方法，通过使用一组稀疏的输入视图来优化底层连续的体积场景函数，从而获得合成复杂场景的新视图的最新结果。我们的算法使用全连接(非卷积)深度网络表示场景，其输入是单个连续的5D坐标(空间位置(x, y, z)和观看方向(θ, φ))，其输出是空间位置的体密度以及该位置的发射射线（这里射线是根据视角变化的）。我们通过沿着相机光线查询5D坐标来合成视图，并使用经典的体渲染技术将输出的颜色和密度投影到图像中。因为体成像是自然可微的，所以只需要一组知道相机坐标的图像作为输入就可以优化这个深度网络。在这篇文章里，我们会介绍怎样通过神经射线场去有效率的优化逼真的合成场景，在这样的场景里，可以有复杂的几何结构以及颜色。我们还将展示由于之前的神经渲染以及新视角合成领域工作的结果。由于新视角合成的效果在视频中观察效果最佳，我们建议读者参考补充的视频材料来比较成果。

1 引言

在这项工作中，我们通过直接优化连续5D场景表示的参数来解决长期存在的问题，以最大限度地减少绘制一组捕获图像的误差。我们将静态场景表示为一个连续的5D函数，该函数输出在空间中每个点(x, y, z)的每个方向(θ， φ)发射的辐射度以及每个点处的密度，该密度类似于微分不透明度，控制光线通过(x，y，z)时累积的辐射量。我们的方法通过从单一的5D坐标(x，y，z，θ，φ)回归到单一的体积密度和视点相关的RGB颜色来优化没有任何卷积层(通常称为多层感知器)的深度全连接的神经网络来表示该函数。

为了从特定视角呈现该神经辐射场(NeRF)，我们采用：

让相机射线穿过场景来生成一组采样的3D点
使用这些点及其对应的2D观察方向作为神经网络的输入以产生颜色和密度的输出集合
使用经典的体积渲染技术来将这些颜色和密度积累到一个2D图像中

因为这个过程是自然可微的，所以我们可以使用梯度下降来优化这个模型，方法是最小化每个观察图像和根据我们的表示所呈现的相应视图之间的误差。通过将高体积密度和精确的颜色分配到包含真实底层场景内容的位置，使跨多个视图的误差最小化，鼓励网络预测场景的连贯模型。图2可视化了整个过程。

图2 我们的神经辐射场场景表示和可微渲染过程的概述。我们通过以下方法合成图像:沿着相机射线(a)采样5D坐标(位置和观看方向)，将这些位置输入MLP以产生颜色和体积密度(b)，并使用体积渲染技术将这些值合成到图像©。这个渲染函数是可微分的，因此我们可以通过最小化合成图像和真实观测图像之间的残差(d)来优化我们的场景表示。

我们发现，优化复杂场景的神经辐射场表示的基本实现不能收敛到足够高的分辨率表示，而且在每条相机射线所需的样本数量方面效率低下。我们通过使用位置编码转换输入5D坐标来解决这些问题，从而使MLP能够表示更高频率的函数，并且我们提出了分层采样过程来减少充分采样这种高频场景表示所需的查询数量。

我们的方法继承了体积表示的优点：两者都可以表示复杂的现实世界几何和外观，并且非常适合使用投影图像进行基于梯度的优化。至关重要的是，我们的方法克服了离散体素网格在高分辨率建模复杂场景时高昂的存储成本。总之，我们的技术贡献是:

一种将具有复杂几何形状和材质的连续场景表示为5D神经辐射场的方法，该方法被参数化为基本的MLP网络。
一个基于经典体渲染技术的可微渲染过程，我们用它来优化标准RGB图像的表示。这包括一种分层采样策略，将MLP的容量分配给具有可见场景内容的空间。
将每个输入5D坐标映射到更高维度空间的位置编码，使我们能够成功地优化神经辐射场来表示高频场景内容。

我们证明，我们产生的神经辐射场方法在定量和定性上优于最先进的视图合成方法，包括将神经3D表示与场景相匹配的工作，以及训练深度卷积网络预测采样体表示的工作。据我们所知，本文提出了第一个连续的神经场景表示，它能够从自然环境中捕获的RGB图像中渲染出真实物体和场景的高分辨率真实感新视图。

2 相关工作

最近计算机视觉的一个很有前途的方向是用MLP的权重编码对象和场景，该MLP直接从3D空间位置映射到形状的隐式表示，例如该位置的带符号距离[6]。然而，到目前为止，这些方法还不能再现具有复杂几何形状的真实场景，不能像使用三角网格或体素网格等离散表示方法再现场景相同的保真度。在本节中，我们将回顾这两种工作方式，并将它们与我们的方法进行对比，我们的方法增强了神经场景表示的能力，从而为渲染复杂的现实场景产生最先进的结果。

使用MLPs从低维坐标映射到颜色的类似方法也被用于表示其他图形功能，如图像[44]、纹理材质[12，31，36，37]和间接照明值[38]。

神经网络3D形状表示