NeRF-Diffusion系列文章阅读

原创

已于 2023-07-13 20:08:06 修改 · 3k 阅读

标签

#机器学习 #人工智能

于 2023-06-08 16:05:33 首次发布

文章介绍了三篇在CVPR23发表的论文，关注3D形状和纹理的生成与重建。Latent-NeRF通过在隐空间上应用扩散模型，结合形状指导以生成3D形状和纹理。NeRDi利用语言引导的扩散模型进行单视图NeRF合成，以增强3D重建的先验知识。SparseFusion通过融合视图条件的扩散模型，解决了稀疏视角下的3D重建问题，实现了高质量图像生成与3D一致性。

文章目录

前置知识
《Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures》【CVPR'23】
《NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors》【CVPR'23】
《SparseFusion: Distilling View-conditioned Diffusion for 3D Reconstruction》【CVPR'23】

前置知识

1）纹理
$\quad$ 在计算机图形学领域，纹理是一种应用于三维模型表面的一种贴图技术，包括颜色、图案、光泽度、凹凸、透明度等属性。纹理可以是任何形式的图像，例如木纹、石纹、花纹、斑点、噪声、透明校准图等等。直白来说，可以将纹理看作一种包含多种属性的数据。
$\quad$ 通过将纹理映射到三维模型的表面，就可以在渲染时模拟真实场景的细节和复杂度。纹理映射需要基于 UV 映射将三维表面映射到二维纹理图像上，以便于渲染引擎在渲染时正确的将纹理信息应用到模型表面上。
2）UV Map（UV映射）
$\quad$ 在3D建模中，模型的表面通常是由一系列三角形或四边形组成的网格构成的。每个三角形或四边形的每个顶点都有一个坐标，这些坐标被称为“顶点坐标”。在UV映射过程中，每个三角形或四边形的每个顶点都会被分配一个对应的二维坐标，称为“UV坐标”。 这些UV坐标通常被表示为（u，v）坐标，类似于平面直角坐标系中的（x，y）坐标。UV坐标的范围通常是从0到1。
$\quad$ 一旦将UV坐标分配给模型表面的每个顶点，就可以将纹理图案或图像映射到模型表面上，使其贴合到正确的位置。这样的一个过程，类似于将一块贴纸贴在3D模型上的过程。

3）Epipolar lines（极线）
$\quad$ 极线是立体视觉和三维重建中的一个基本概念。它们在关联一个场景或物体的多个视图之间的对应点方面起着至关重要的作用，这些对应点通常是从立体摄像机设置中获得的。

$\quad$ 在立体视觉中，用一对摄像机从不同的角度捕捉同一场景的两幅或两幅以上的图像。极线是一幅图像中的一个对应点在另一幅图像的图像平面上的投影，形成一条线。 这意味着对于一幅图像中的一个给定点，它在另一幅图像中的对应点将位于外极线上。

$\quad$ 极线的关键特性是它们为图像之间的对应关系提供了一个搜索空间的约束。在两幅图像之间进行点匹配时，只需沿对应于一幅图像中给定点的对极线进行搜索，减少了搜索空间，提高了匹配效率。极线是立体匹配、特征对应、三维重建等多种任务的重要工具。通过利用极上几何，可以在不同视图中的点之间建立对应关系，这是恢复场景或物体三维结构的关键步骤。

《Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures》【CVPR’23】

Paper: 链接
Code: https://github.com/eladrich/latent-nerf
Author: Tel Aviv University

1）动机：
dream fusion开创了2d扩散模型引导nerf生成的先河，但是其使用的是Imagen，或使用stable diffusion进行复现，庞大的资源开销是不可忽视的一个问题。此外，虽然文本能够通过预训练模型的桥梁给与3D语义上的指导，但是这种方式内在上缺乏对3D结构的约束和指导。所以这篇文章想做的事情有两个：

在隐空间上进行扩散过程，即引入基于潜空间的diffusion模型（LDM），使NeRF生成的图像为一个latent-code，然后stable-diffusion在这个latent-code上执行。（在隐空间上操作使得计算量更小，采样也更方便，Stable-diffusion模型也是一个LDM模型。）
在生成过程中给予形状的指导，即在生成过程中引入两种指导：Sketch-shape，Latent-Paint。

因此，这篇文章的主要贡献是：以往使用预训练扩散模型进行text-to-3d的工作中，文本只能提供语义的指导，在shape-guidance上缺失，所以这篇文章主要做的是为text-to-3d任务中引入两种shape-guidance。并且为了提高计算效率，作者通过结合NeRF+LDM在隐空间上实现这一过程。即用户先使用sketch-shape定义初始的几何，然后使用Latent-NeRF基于prompt来细化形状和引入纹理。

2）相关工作：

最开始的text-to-3d的工作是基于CLIP提供guidance，这一类工作以DreamFields为代表。在DreamFields出现之前，有篇文章叫CLIPMesh也是利用CLIP的guidance，DreamFields也借鉴了这个思想，但是是用NeRF来表征3D目标而不是用显式的三角网络。

在这里插入图片描述