手把手实践-图像/视频语义分割 (Easy-VideoSegment)

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

任务定义:

如上图所示,语义分割旨在利用自定义标签(上图中为“human"),来对图像或者视频中的标签内容进行像素级的分割。

该任务被广泛地应用在各种数据标注需求中。

尽管有例如SAM这样的分割工具,可以对图像中的内容进行分割,但是对视频中连续运动的物体进行分割却是非常困难的。在本项目中,使用了Segment and Tracking Anything论文中的算法和代码,通过我们提供的推理脚本,可以非常容易地对图像和视频中的内容进行语义分割。

项目地址:

Easy-VideoSegment

https://github.com/gulucaptain/Easy-VideoSegmenthttps://github.com/gulucaptain/Easy-VideoSegment:) 欢迎star 👏👏👏

如何使用:

首先:

git clone https://github.com/gulucaptain/Easy-VideoSegment

1. 安装环境

bash install.sh

执行install.sh脚本,即可创建conda环境以及安装相应的依赖。在该脚本中,包括了安装Pytorch-Correlation-extension的部分。

在安装结束后,由于要使用到groundingdino,将该文件夹的地址写入到tool/detector.py的第7行:

sys.path.append('/home/user/xxx/Easy-VideoSegment/src/groundingdino')

2. 下载权重

总共只需四个文件,直接执行下述脚本

bash ckpt_download.sh

这些权重文件已经打包在huggingface中,也可手动下载:

https://huggingface.co/gulucaptain/DynamiCtrl/tree/main/segment_checkpointshttps://huggingface.co/gulucaptain/DynamiCtrl/tree/main/segment_checkpoints之后按照脚本中的位置存放即可。

3. 执行:根据自定义标签进行语义分割

bash inference.sh

在inference.sh中,要定义好:

  • file_pth:需要处理的图像/视频的地址,也可以是一个存放图像/视频的文件夹地址;
  • segment_label:需要提取的内容,例如“human"
  • mask_save_pth:保存mask的地址

这样就可以得到最终图像/视频分割的结果,视频的分割结果会按帧存储为图像。

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen
文本生成
Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值