SAM3：从“分割一切”到“理解万物”

最新推荐文章于 2026-04-27 09:47:36 发布

原创最新推荐文章于 2026-04-27 09:47:36 发布 · 2.8k 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

人工智能专栏收录该内容

53 篇文章

订阅专栏

SAM 3 图像和视频识别分割

PyTorch

图像识别

SAM 3 是一个统一的基础模型，用于图像和视频中的可提示分割。它可以使用文本或视觉提示（如点、框和掩码）来检测、分割和跟踪对象。

前言：视觉大模型的“ChatGPT 时刻”

2023 年，Meta 用 SAM 1 把“分割一切”做成通用接口；
2024 年，SAM 2 把能力从图像延伸到视频，实现时空一致；
2025 年 10 月，Meta 官方正式披露 SAM3 技术细节（相关研究已提交 ICLR 2026 评审）—— 这一次，它不再满足于‘点、框、mask’这些几何提示，而是直接听懂‘人话’，用自然语言概念驱动分割。近日SAM3模型已在hugging face网站上提供下载。

恰逢近日李飞飞Marbel 3D世界模型获得了广泛的关注，SAM 3D又会给我们带来什么呢？以下是我测试获得的3D模型，并且进行编辑添加背景效果以及下载获得sam3d-splat.ply模型文件的截图，大家可以先睹为快。
在这里插入图片描述

在这里插入图片描述

一句话总结：
SAM 3 让视觉模型从“分割一切”进化到“理解万物”，标志着视觉大模型正式进入“语义优先”时代。

SAM 3 到底是什么？

版本	提示方式	输出	核心亮点
SAM 1	点 / 框 / mask	单个 object mask	零样本泛化
SAM 2	点 / 框 / mask	视频 object mask 序列	时空跟踪
SAM 3	文本短语 / 图像示例 / 组合	同一概念所有实例 mask	可提示概念分割（PCS）

官方定义：

SAM 3 是面向可提示概念分割（Promptable Concept Segmentation, PCS）的下一代基础模型，能够检测、分割并跟踪由文本或图像示例指定的视觉概念的所有实例。

在这里插入图片描述

SAM 3的核心创新在于它解决了AI模型长期存在的难题——将自然语言输入与图像中的特定视觉元素联系起来。
传统图像分割模型通常只能识别预定义类别（如“人”或“车”），而SAM 3支持开放词汇分割，能够理解更复杂的描述。
SAM 3支持多种提示方式，包括：

概念提示：简单名词短语（如“运输集装箱”、“太阳能板”）
图像范例：通过点击图像中的物体作为示例
视觉提示：点、框、掩码等传统SAM提示
组合提示：概念与图像范例的组合
这种灵活性大大扩大了模型的应用范围，特别是对于那些难以用文字准确描述的复杂概念。

如果说 SAM3 解决了 2D 场景的 “理解问题”，SAM3D 则直接攻克了 3D 重建的 “效率与精度难题”—— 仅需一张 2D 照片，就能生成带纹理、材质和姿态信息的 3D 模型，彻底降低了 3D 内容创作的门槛。

新成员 SAM 3D

双模型架构：覆盖通用物体与人体重建

在这里插入图片描述

SAM3D 包含两个业界领先的子模型，针对性解决不同 3D 场景需求：

SAM3D Objects：聚焦通用物体与场景重建，能从单张自然图像中还原详细 3D 形状、纹理和空间布局，支持 AR/VR、机器人感知等场景。
SAM3D Body：专注人体姿态与形体重建，即使面对遮挡、异常姿势或多人场景，也能精准输出 3D 骨骼与软组织形态，支持与 Mixamo 等工具一键绑定。

在这里插入图片描述

核心技术：突破 3D 数据瓶颈的关键创新

SAM3D 的成功核心在于解决了真实世界 3D 数据稀缺的痛点：

高效数据引擎：通过 “模型生成候选 + 标注者评分 + 艺术家修正” 的流程，标注近 100 万张真实图像，生成 314 万个 3D 网格，突破传统 3D 数据采集的效率瓶颈。
多阶段训练：先通过合成数据完成预训练，再用真实世界数据进行对齐微调，兼顾泛化性与真实性。
空间 - 语义联合编码：预测每个像素的 3D 坐标与表面法线，确保重建结果的物理精确性，避免纯视觉方法的几何失真。

开发者快速上手指南

目前 Meta 已开源 SAM3 和 SAM3D 的模型权重、推理代码及 SA-Co 基准测试集，开发者可通过以下方式快速体验：

1. 快速体验（无需编码）

在线测试：访问Segment Anything Playground，直接用文本提示（如 “条纹红色雨伞”）测试 2D 分割，或上传图片生成 3D 模型；
查看官方文档：Meta 官方博客SAM3、SAM3D含技术细节与应用案例。

2. 本地部署（基础流程）

（1）环境依赖

# 创建虚拟环境
conda create -n sam3 python=3.12
conda activate sam3
# 安装核心依赖
pip install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# Clone the repository and install the package:
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .

（2）下载模型权重

社区渠道：Hugging Face facebook/sam3、ModelScope 魔搭社区facebook/sam3（含中文镜像，下载更快）。

（3）核心 API 调用示例（文本提示分割）

import torch
from PIL import Image
from sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
# Load the model
model = build_sam3_image_model()
processor = Sam3Processor(model)
# Load an image
image = Image.open("<YOUR_IMAGE_PATH.jpg>")
inference_state = processor.set_image(image)
# Prompt the model with text
output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>")

# Get the masks, bounding boxes, and scores
masks, boxes, scores = output["masks"], output["boxes"], output["scores"]