SAM3:从“分割一切”到“理解万物”

SAM 3 图像和视频识别分割

SAM 3 图像和视频识别分割

PyTorch
图像识别

SAM 3 是一个统一的基础模型,用于图像和视频中的可提示分割。它可以使用文本或视觉提示(如点、框和掩码)来检测、分割和跟踪对象。

前言:视觉大模型的“ChatGPT 时刻”

2023 年,Meta 用 SAM 1 把“分割一切”做成通用接口;
2024 年,SAM 2 把能力从图像延伸到视频,实现时空一致;
2025 年 10 月,Meta 官方正式披露 SAM3 技术细节(相关研究已提交 ICLR 2026 评审)—— 这一次,它不再满足于‘点、框、mask’这些几何提示,而是直接听懂‘人话’,用自然语言概念驱动分割。近日SAM3模型已在hugging face网站上提供下载。

恰逢近日李飞飞Marbel 3D世界模型获得了广泛的关注,SAM 3D又会给我们带来什么呢?以下是我测试获得的3D模型,并且进行编辑添加背景效果以及下载获得sam3d-splat.ply模型文件的截图,大家可以先睹为快。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

一句话总结:
SAM 3 让视觉模型从“分割一切”进化到“理解万物”,标志着视觉大模型正式进入“语义优先”时代。


SAM 3 到底是什么?

版本提示方式输出核心亮点
SAM 1点 / 框 / mask单个 object mask零样本泛化
SAM 2点 / 框 / mask视频 object mask 序列时空跟踪
SAM 3文本短语 / 图像示例 / 组合同一概念所有实例 mask可提示概念分割(PCS)

官方定义:

SAM 3 是面向可提示概念分割(Promptable Concept Segmentation, PCS)的下一代基础模型,能够检测、分割并跟踪由文本或图像示例指定的视觉概念的所有实例

在这里插入图片描述

SAM 3的核心创新在于它解决了AI模型长期存在的难题——将自然语言输入与图像中的特定视觉元素联系起来。
传统图像分割模型通常只能识别预定义类别(如“人”或“车”),而SAM 3支持开放词汇分割,能够理解更复杂的描述。
SAM 3支持多种提示方式,包括:

  • 概念提示:简单名词短语(如“运输集装箱”、“太阳能板”)

  • 图像范例:通过点击图像中的物体作为示例

  • 视觉提示:点、框、掩码等传统SAM提示

  • 组合提示:概念与图像范例的组合
    这种灵活性大大扩大了模型的应用范围,特别是对于那些难以用文字准确描述的复杂概念。

    在这里插入图片描述

如果说 SAM3 解决了 2D 场景的 “理解问题”,SAM3D 则直接攻克了 3D 重建的 “效率与精度难题”—— 仅需一张 2D 照片,就能生成带纹理、材质和姿态信息的 3D 模型,彻底降低了 3D 内容创作的门槛。

新成员 SAM 3D

双模型架构:覆盖通用物体与人体重建

在这里插入图片描述

SAM3D 包含两个业界领先的子模型,针对性解决不同 3D 场景需求:

  • SAM3D Objects:聚焦通用物体与场景重建,能从单张自然图像中还原详细 3D 形状、纹理和空间布局,支持 AR/VR、机器人感知等场景。
    在这里插入图片描述
    在这里插入图片描述

  • SAM3D Body:专注人体姿态与形体重建,即使面对遮挡、异常姿势或多人场景,也能精准输出 3D 骨骼与软组织形态,支持与 Mixamo 等工具一键绑定。

在这里插入图片描述

核心技术:突破 3D 数据瓶颈的关键创新

SAM3D 的成功核心在于解决了真实世界 3D 数据稀缺的痛点:

  • 高效数据引擎:通过 “模型生成候选 + 标注者评分 + 艺术家修正” 的流程,标注近 100 万张真实图像,生成 314 万个 3D 网格,突破传统 3D 数据采集的效率瓶颈。
  • 多阶段训练:先通过合成数据完成预训练,再用真实世界数据进行对齐微调,兼顾泛化性与真实性。
  • 空间 - 语义联合编码:预测每个像素的 3D 坐标与表面法线,确保重建结果的物理精确性,避免纯视觉方法的几何失真。

开发者快速上手指南

目前 Meta 已开源 SAM3 和 SAM3D 的模型权重、推理代码及 SA-Co 基准测试集,开发者可通过以下方式快速体验:

1. 快速体验(无需编码)
  • 在线测试:访问Segment Anything Playground,直接用文本提示(如 “条纹红色雨伞”)测试 2D 分割,或上传图片生成 3D 模型;

  • 查看官方文档:Meta 官方博客SAM3SAM3D含技术细节与应用案例。

2. 本地部署(基础流程)
(1)环境依赖
# 创建虚拟环境
conda create -n sam3 python=3.12
conda activate sam3
# 安装核心依赖
pip install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# Clone the repository and install the package:
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
(2)下载模型权重
(3)核心 API 调用示例(文本提示分割)
import torch
from PIL import Image
from sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
# Load the model
model = build_sam3_image_model()
processor = Sam3Processor(model)
# Load an image
image = Image.open("<YOUR_IMAGE_PATH.jpg>")
inference_state = processor.set_image(image)
# Prompt the model with text
output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>")

# Get the masks, bounding boxes, and scores
masks, boxes, scores = output["masks"], output["boxes"], output["scores"]
3. 生态工具集成
  • Ultralytics:已公布 SAM3 集成路线图,关注Ultralytics SAM3 文档获取更新;
  • 国内适配:ModelScope 提供模型镜像与中文教程,适合国内开发者快速部署。

您可能感兴趣的与本文相关的镜像

SAM 3 图像和视频识别分割

SAM 3 图像和视频识别分割

PyTorch
图像识别

SAM 3 是一个统一的基础模型,用于图像和视频中的可提示分割。它可以使用文本或视觉提示(如点、框和掩码)来检测、分割和跟踪对象。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

围炉聊科技

你的鼓励是对我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值