HaLo-NeRF：利用视觉和语言模型对场景的精准定位和细粒度语义理解

最新推荐文章于 2026-06-25 20:29:15 发布

原创

最新推荐文章于 2026-06-25 20:29:15 发布 · 1.1k 阅读

标签

#语言模型 #人工智能 #自然语言处理 #AIGC

收录于

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而，先前的工作主要集中在几何重建和可视化上，忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目：HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

更多消息：
AI人工智能行业动态，aigc应用领域资讯

在受限的 3D 领域中，最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解，但由于缺乏建筑领域的专业知识，它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中，他们提出了一个定位系统，通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性，将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型，他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上：物理上基于空间的图像可以为本地化新概念提供强大的监督信号，其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解，为最终提升为体积场景表示的 3D 兼容分割提供指导。他们的结果表明，HaLo-NeRF 可以准确定位与建筑地标