Epoch-Based和Iter-Based

原创于 2025-07-14 14:44:29 发布 · 869 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

在深度学习模型训练中，Epoch-Based（基于轮次） 和 Iter-Based（基于迭代次数） 是两种核心训练模式，它们在训练流程、适用场景和配置方式上有显著区别。结合你提供的 Mask2Former 配置文件，以下是详细解析：

一、核心定义与本质区别

1. Epoch-Based（基于轮次）

定义：以 “轮次（Epoch）” 为单位控制训练进度。1 个 Epoch 表示模型完整遍历整个训练数据集一次。
核心参数：通过max_epochs设置总轮次，例如max_epochs=12表示训练 12 轮。
迭代次数计算：每轮的迭代次数由数据集大小和批处理大小（Batch Size）决定，公式为：
每轮迭代次数 = 训练集样本总数 ÷ (单卡Batch Size × GPU数量)
（若无法整除，最后一轮会包含剩余样本）。

2. Iter-Based（基于迭代次数）

定义：以 “迭代次数（Iteration）” 为单位控制训练进度。1 次迭代表示模型处理一个 Batch 的数据（与数据集大小无关）。
核心参数：通过max_iters设置总迭代次数，例如你的配置中max_iters=368750表示训练 368750 次迭代。
轮次换算：若需对应 Epoch，需通过总迭代次数反推，公式为：
总Epoch数 = 总迭代次数 ÷ 每轮迭代次数

二、两种模式的适用场景

1. Epoch-Based 适用场景

中小规模数据集：例如分类任务的 ImageNet（120 万样本），每轮迭代次数适中（如 Batch Size=32 时，每轮约 37500 次迭代），总轮次（如 100 轮）易于管理。
需完整遍历数据的场景：部分任务（如自监督学习）依赖对全量数据的多次遍历，Epoch-Based 更直观。
配置简单：无需手动计算总迭代次数，适合新手入门。

2. Iter-Based 适用场景

大规模数据集或大输入尺寸：
例如你的配置中，Mask2Former 使用 1024x1024 大尺寸图像，单卡 Batch Size=1（受限于 GPU 内存）。若用 COCO 训练集（118k 样本），每轮迭代次数为 118000 次，此时用 Epoch-Based 设置总轮次会导致迭代次数过多（如 3 轮即 354000 次），难以精确控制训练步数。
需固定训练步数的场景：学术论文中常指定 “训练 30 万次迭代” 以保证公平对比，Iter-Based 可直接设置max_iters=300000，不受数据集大小影响。
动态调整训练过程：例如在特定迭代次数（如 20 万次）后修改学习率或数据增强策略，Iter-Based 更灵活。

三、MMDetection 中的配置差异

以你的 Mask2Former 配置为例，两种模式的核心配置对比如下：

配置项	Epoch-Based 模式	Iter-Based 模式（你的配置）
训练循环类型	`train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=12)`	`train_cfg = dict(type='IterBasedTrainLoop', max_iters=368750)`
总进度参数	`max_epochs=12`（总轮次）	`max_iters=368750`（总迭代次数）
验证间隔	`val_interval=1`（每 1 轮验证一次）	`val_interval=5000`（每 5000 次迭代验证一次）
学习率调度	`by_epoch=True`（按轮次衰减）	`by_epoch=False`（按迭代次数衰减）
模型保存间隔	`checkpoint=dict(interval=1)`（每 1 轮保存）	`checkpoint=dict(interval=5000)`（每 5000 次迭代保存）

四、为什么你的配置用 Iter-Based？

你的配置针对 Mask2Former 模型（实例分割任务），选择 Iter-Based 模式的核心原因：

大输入尺寸限制 Batch Size：
1024x1024 的图像对 GPU 内存消耗极大，单卡 Batch Size 只能设为 1（你的配置中train_dataloader.batch_size=1）。若用 Epoch-Based，COCO 训练集每轮需 118000 次迭代，3 轮就达 354000 次，难以精确控制到 368750 次迭代。
学术复现需求：
Mask2Former 的原始论文中使用固定迭代次数（如 368750 次）训练，Iter-Based 可直接对齐论文设置，保证结果可复现。
灵活控制训练时长：
若未来更换更大的数据集（如扩展到 200k 样本），Iter-Based 的max_iters=368750可保持训练总步数不变，避免因数据集增大导致训练时间大幅增加。

五、两种模式的切换方法

若需将你的配置从 Iter-Based 改为 Epoch-Based，需同步修改以下参数：

# 1. 训练循环配置（总轮次设为3轮，约等于368750次迭代）
train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=3, val_interval=1)

# 2. 学习率调度（按轮次衰减）
param_scheduler = dict(
    type='MultiStepLR',
    by_epoch=True,  # 改为按轮次衰减
    milestones=[2, 2.5],  # 对应原迭代次数的衰减节点（需换算）
    gamma=0.1
)

# 3. 模型保存间隔（按轮次保存）
default_hooks = dict(
    checkpoint=dict(
        by_epoch=True,  # 按轮次保存
        interval=1  # 每1轮保存一次
    )
)

注意：切换后需重新计算学习率衰减节点（将原迭代次数换算为轮次），并确保val_interval和checkpoint.interval与轮次匹配。