从零构建自定义实例分割数据集:Labelme标注与COCO格式转换实战指南
在计算机视觉领域,COCO数据集因其丰富的标注和标准化格式已成为行业基准。但现实项目中,我们往往需要针对特定场景(如工业质检、医疗影像或零售商品识别)构建专属数据集。本文将完整演示如何通过开源工具Labelme完成图像标注,并编写Python脚本将标注结果转换为COCO标准格式,最终生成可直接用于模型训练的实例分割数据集。
1. 工具选型与标注环境搭建
1.1 标注工具对比分析
不同于直接下载现成数据集,自定义数据集制作需要选择合适的标注工具。以下是主流开源工具的对比:
| 工具名称 | 标注类型支持 | 安装复杂度 | 导出格式 | 交互体验 |
|---|---|---|---|---|
| Labelme | 多边形/矩形/关键点 | ★★☆☆☆ | JSON(自定义) | 优秀 |
| CVAT | 全类型标注 | ★★★★☆ | COCO/XML等 | 专业 |
| LabelImg | 矩形框 | ★★☆☆☆ | VOC/YOLO | 一般 |
| VGG Image Annotator | 多边形/点 | ★★☆☆☆ | JSON | 良好 |
对于实例分割任务,Labelme因其轻量级和灵活的多边形标注能力成为首选。安装仅需一行命令:
pip install labelme
1.2 标注规范制定
开始标注前需明确规范:
- 类别体系:预先定义所有待标注类别(如工业场景的"划痕"、"凹陷"等)
- 标注精度:确定多边形顶点密度(一般建议物体边缘每3-5像素一个点)
- 遮挡处理:约定被遮挡物体的标注方式(完整轮廓或可见部分)
- 标注验证:设置多人交叉验证机制
提示:建议创建标注手册并保存为PDF,供整个团队参考执行
2. Labelme标注全流程解析
2.1 标注操作实战演示
启动Labelme后,典型工作流如下:
-
创建标注项目目录结构:
/dataset /raw_images # 存放原始图像 /an

&spm=1001.2101.3001.5002&articleId=160730251&d=1&t=3&u=74e820882187471da758109e831156e5)
4008

被折叠的 条评论
为什么被折叠?



