前言
图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。
paper:https://arxiv.org/abs/2304.02643
github:https://github.com/facebookresearch/segment-anything/tree/main
一、SAM基础架构

SAM模型整体上包含三个大模块,image encoder,prompt encoder和mask decoder。
image encoder用于对输入图像进行特征提取,并获取编码;prompt encoder则是对输入的prompt进行编码;mask decoder最终根据输入的图像和prompt编码进行解码得到最终的分割mask。
下面介绍每个模块的具体细节。


1万+

被折叠的 条评论
为什么被折叠?



