实战指南：基于MOT17数据集构建YOLOv7行人检测模型

最新推荐文章于 2026-05-09 05:45:20 发布

原创

最新推荐文章于 2026-05-09 05:45:20 发布 · 472 阅读

标签

#行人检测 #YOLOv7 #MOT17 #目标检测

1. 从MOT17到YOLOv7：为什么选择这个组合？

如果你正在研究计算机视觉，特别是行人检测或者多目标跟踪，那你肯定绕不开MOT17这个数据集。它几乎是这个领域的“标准考卷”，包含了各种复杂场景下的行人数据，比如拥挤的街道、变化的视角、不同的光照条件。但很多朋友拿到MOT17后，第一反应可能是：这数据格式怎么跟常见的检测框架（比如YOLO）对不上啊？直接用原生的det.txt文件去训练YOLOv7，肯定会报错。

这就是我们今天要解决的核心问题：如何把MOT17这套“标准考卷”，变成YOLOv7这个“尖子生”能看懂、能学习的“复习资料”。我刚开始做这个转换的时候也踩了不少坑，比如坐标没归一化、数据集划分不合理，导致模型训练了半天效果奇差。后来摸索出一套完整的流程，实测下来非常稳，从数据准备到模型训练再到评测，每一步都清晰可操作。

为什么选YOLOv7？在目前的单阶段检测器里，YOLOv7在速度和精度之间取得了非常好的平衡。它不像一些“重武器”模型那样对计算资源要求极高，又能提供相当不错的检测精度，非常适合我们用来做行人检测这种基础但又关键的任务。把MOT17的数据“喂”给YOLOv7，就相当于用最经典的考题来训练一个高效的学生，最终得到的模型既鲁棒又实用，可以直接用于后续的跟踪任务，或者部署到一些边缘设备上。接下来，我就手把手带你走一遍这个流程，保证你跟着做就能出结果。

2. 数据准备：把MOT17“翻译”成YOLO能懂的语言

万事开头难，数据准备是第一步，也是最容易出错的一步。MOT17数据集本身结构有点复杂，它按照检测器（DPM, FRCNN, SDP）和训练/测试集进行了划分。我们的目标是从中提取出图片和对应的标注，并转换成YOLO格式。

2.1 理解MOT17的原始格式

首先，你得把MOT17数据集下载下来。解压后，你会看到train和test两个主文件夹。以train为例，里面是MOT17-02-FRCNN、MOT17-04-SDP这样的子文件夹。每个子文件夹代表一个视频序列，结构是固定的：

img1/：存放这个序列的所有帧图片，命名如000001.jpg。
det/：存放检测结果文件det.txt，这就是我们需要的标注来源。
gt/：存放真实标注gt.txt（训练集才有）。
seqinfo.ini：这个文件很重要，记录了序列的元信息，比如图片尺寸、序列长度。

我们需要的关键信息在det.txt里。它的每一行代表一个检测框，格式是：<帧编号>, <目标ID>, <左上角x>, <左上角y>, <框宽度>, <框高度>, <置信度>, <类别>, <可见性比率>。对于检测任务，我们主要关心帧编号和框的坐标（x, y, w, h）。注意，这里的坐标是绝对像素坐标。

而YOLO格式的标签文件（.txt）要求完全不同。每个标签文件对应一张图片，每行代表一个物体，格式是：<类别id> <中心点x归一化> <中心点y归一化> <宽度w归一化> <高度h归一化>。所有坐标值都必须在0到1之间，是相对于图片宽度和高度的比例。这个转换如果不做，训练直接就会失败。

2.2 编写格式转换脚本

手动转换是不可能的，我们必须写一个Python脚本来自动化这个过程。我结合自己的经验，把关键步骤和避坑点都写在了下面的代码里。你需要创建一个convert_mot_to_yolo.py文件，并确保它和你的MOT17数据集放在同一级目录下。

import os
import shutil
import numpy as np
import configparser

# 1. 创建YOLO格式所需的目录结构
def create_dirs():
    dirs = ['images/train', 'images/val', 'labels/train', 'labels/val']
    for d in dirs:
        os.makedirs(d, exist_ok=True)
    print("目录结构创建完成。")

# 2. 核心转换函数：将绝对坐标转换为归一化坐标
def convert_bbox(img_width, img_height, x_top_left, y_top_left, bbox_width, bbox_height):
    """
    将MOT格式的 (左上角x, 左上角y, 宽, 高) 转换为YOLO格式的 (中心x, 中心y, 宽, 高)，并归一化。
    """
    x_center = (x_top_left + bbox_width / 2.0) / img_width
    y_center = (y_top_left + bbox_height / 2.0) / img_height
    w_norm = bbox_width / img_width
    h_norm = bbox_height / img_height
    # 保留6位小数，确保精度
    return (f'{x_center:.6f}', f'{y_center:.6f}', f'{w_norm:.6f}', f'{h_norm:.6f}')

# 3. 主处理流程
def process_mot_sequence(mot_sequences_dir, dataset_type='train', val_split_ratio=0.5):
    """
    处理MOT序列文件夹。
    :param mot_sequences_dir: 包含MOT17-XX-XXX文件夹的目录（例如 'train' 或 'test'）
    :param dataset_type: 'train' 或 'test'。处理train集时需要划分验证集，test集则全部作为测试集。
    :param val_split_ratio: 当处理train集时，按序列帧数前后划分训练/验证集的比例。默认前一半训练，后一半验证。
    """

最低0.47元/天解锁文章