从JSON到TXT：高效转换标注数据格式的实战指南

最新推荐文章于 2026-04-03 02:07:09 发布

原创

最新推荐文章于 2026-04-03 02:07:09 发布 · 277 阅读

标签

#数据格式转换 #JSON #TXT #目标检测

1. 为什么你需要把JSON标注数据转成TXT？

如果你刚开始接触目标检测，尤其是用YOLOv5这类框架，你可能会发现一个挺让人头疼的问题：你辛辛苦苦用标注工具（比如labelme）画好了一堆框，存成了JSON文件，结果YOLO训练脚本一跑，直接报错，说找不到标签文件，或者格式不对。这事儿我刚开始也遇到过，感觉就像你写了一封情书，结果对方只收电报，完全对不上频道。

JSON和TXT，本质上都是文本文件，但它们在数据组织上完全是两种“方言”。JSON（JavaScript Object Notation）是一种结构化的数据交换格式，它用大括号、中括号、键值对把数据组织得明明白白，可读性很好，也方便程序解析。比如，一个labelme标注的JSON文件，它会详细记录图片路径、图片尺寸、以及每个标注框的坐标点、类别标签等等，信息非常全。但问题就在于，它“太全”了，结构也相对复杂。

而YOLO系列（特别是YOLOv5及之后的版本）通常要求一种极其简洁的TXT格式。每个图片对应一个同名的TXT文件，文件里每一行代表一个目标物体，格式固定为：类别编号 x_center y_center width height。这里的坐标和宽高都不是原始的像素值，而是相对于图片宽度和高度的归一化值（介于0到1之间）。这种格式去掉了所有“修饰”，只保留最核心的检测信息，体积小，读取快，非常适合训练时海量数据的快速加载。

所以，这个转换过程，说白了就是一个“翻译”和“精简”的过程：把JSON里结构化的、详细的标注信息，提取出来，按照YOLO能听懂的“电报码”规则，重新编码并写入TXT文件。不掌握这个转换，你的数据集就像一堆 locked 的宝箱，模型再厉害也打不开。接下来，我就带你一步步亲手把这个转换流程打通，让你手里的数据真正“活”起来。

2. 动手之前：理清你的数据“家底”

在写任何代码之前，花几分钟整理好你的数据目录，能省去后面一大堆路径错误和调试的麻烦。根据我的经验，一个清晰、固定的目录结构是高效转换的前提。我推荐你按照下面这个结构来组织你的文件，这也是很多开源项目通用的做法。

your_dataset/
├── images/
│   ├── train/
│   │   ├── img_001.jpg
│   │   ├── img_002.jpg
│   │   └── ...
│   └── val/
│       ├── img_101.jpg
│       └── ...
├── labels_json/  (或者 annotations/)
│   ├── train/
│   │   ├── img_001.json
│   │   ├── img_002.json
│   │   └── ...
│   └── val/
│       ├── img_101.json
│       └── ...
└── labels_txt/   (这是我们转换后要生成的文件夹)
    ├── train/
    └── val/

我来解释一下为什么这么安排。images文件夹放原始图片，按训练集（train）和验证集（val）分好子文件夹，这是为了后续训练时方便数据加载。labels_json文件夹严格对应images的结构，每个图片的JSON标注文件都放在同名子文件夹下。这样做最大的好处是，你可以通过图片的文件名，毫无歧义地找到它对应的JSON文件，写代码时一个简单的字符串拼接就能搞定路径映射。

labels_txt文件夹是留给转换结果的。切记，一定要先创建好这个文件夹以及里面的train和val子目录，否则Python脚本运行时会因为找不到路径而报错。你可以手动创建，也可以在代码开头用os.makedirs()来创建。我个人的习惯是在脚本里自动创建，这样更不容易出错。

除了目录，你还需要确认一下你的JSON文件内容。用文本编辑器随便打开一个labelme生成的JSON文件看看，它的结构大致是这样的：

{
  "version": "5.0.1",
  "flags": {},
  "shapes": [
    {
      "label": "cat",
      "points": [[45.3, 120.5], [210.7, 300.2]],
      "group_id": null,
      "shape_type": "rectangle",
      "flags": {}
    },
    {
      "label": "dog",
      "points": [[300.0, 80.0], [500.0, 250.0]],
      "group_id": null,
      "shape_type": "rectangle",
      "flags": {}
    }
  ],
  "imagePath": "img_001.jpg",
  "imageData": null,
  "imageHeight": 480,
  "imageWidth": 640
}

你需要重点关注的是shapes这个列表，它包含了所有标注框。每个框的label告诉你这是什么物体，points是一个包含两个点的列表，分别代表矩形框的左上角和右下角坐标 [ [x1, y1], [x2, y2] ]。imageHeight和imageWidth是图片的尺寸，这对于后续的坐标归一化至关重要。把这些关键信息记在脑子里，我们接下来就要用代码把它们“挖”出来。