手把手实践-图像/视频语义分割 (Easy-VideoSegment)

原创已于 2025-04-29 11:33:15 修改 · 1.2k 阅读

·

18

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#深度学习 #pytorch #人工智能

于 2025-04-29 11:26:04 首次发布

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

任务定义：

如上图所示，语义分割旨在利用自定义标签（上图中为“human"），来对图像或者视频中的标签内容进行像素级的分割。

该任务被广泛地应用在各种数据标注需求中。

尽管有例如SAM这样的分割工具，可以对图像中的内容进行分割，但是对视频中连续运动的物体进行分割却是非常困难的。在本项目中，使用了Segment and Tracking Anything论文中的算法和代码，通过我们提供的推理脚本，可以非常容易地对图像和视频中的内容进行语义分割。

项目地址：

Easy-VideoSegment

https://github.com/gulucaptain/Easy-VideoSegmenthttps://github.com/gulucaptain/Easy-VideoSegment:) 欢迎star 👏👏👏

如何使用：

首先：

git clone https://github.com/gulucaptain/Easy-VideoSegment

1. 安装环境

bash install.sh

执行install.sh脚本，即可创建conda环境以及安装相应的依赖。在该脚本中，包括了安装Pytorch-Correlation-extension的部分。

在安装结束后，由于要使用到groundingdino，将该文件夹的地址写入到tool/detector.py的第7行：

sys.path.append('/home/user/xxx/Easy-VideoSegment/src/groundingdino')

2. 下载权重

总共只需四个文件，直接执行下述脚本

bash ckpt_download.sh

这些权重文件已经打包在huggingface中，也可手动下载：

https://huggingface.co/gulucaptain/DynamiCtrl/tree/main/segment_checkpointshttps://huggingface.co/gulucaptain/DynamiCtrl/tree/main/segment_checkpoints之后按照脚本中的位置存放即可。

3. 执行：根据自定义标签进行语义分割

bash inference.sh

在inference.sh中，要定义好：

file_pth：需要处理的图像/视频的地址，也可以是一个存放图像/视频的文件夹地址；
segment_label：需要提取的内容，例如“human"
mask_save_pth：保存mask的地址

这样就可以得到最终图像/视频分割的结果，视频的分割结果会按帧存储为图像。

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen

文本生成

Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。