多模态:图像分割SAM


前言

图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。
paper:https://arxiv.org/abs/2304.02643
github:https://github.com/facebookresearch/segment-anything/tree/main

一、SAM基础架构

请添加图片描述

SAM模型整体上包含三个大模块,image encoder,prompt encoder和mask decoder。

image encoder用于对输入图像进行特征提取,并获取编码;prompt encoder则是对输入的prompt进行编码;mask decoder最终根据输入的图像和prompt编码进行解码得到最终的分割mask。

下面介绍每个模块的具体细节。

1. image encoder

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值