前言
在本人阅读目标检测相关论文时,一直对论文中所介绍的优化器及学习率比较困惑,尤其在复写论文代码时,很可能会因参数对不齐而导致最终的复现结果大相径庭。因此,本文旨在记录相关论文在MMDetection中所使用的优化器及其code实现。(本文不定时更新…)
1、基础知识
常用的优化器有SGD, ADAM和ADAMW;而学习率调整器就比较多了,余弦退火,OneCycle还有多阶段衰减啥的。
2、RetinaNet
2.1.优化器简介
在mmdetection中retinanet的优化器包含两部分:优化器:sgd;学习率调整器包含warmup(热身500个iterationo),并在第9轮和第12轮时学习率以指数的形式衰减0.1倍。
这里简单贴下学习率的衰减公式:
l r = l r i n i t i a l ( e p o c h < 9 ) l r = l r i n i t i a l × 0.1 ( 9 ≤ e p o c h < 12 ) l r = l r i n i t i a l × 0.01 ( e p o c h ≥ 12 ) lr = lr_{initial} (epoch < 9)\newline lr = lr_{initial} \times 0.1 (9 ≤ epoch < 12)\newline lr = lr_{initial} \times 0.01 (epoch ≥ 12) lr=lrinitial(epoch<9)lr=lrinitial×0.1(9

本文旨在记录目标检测相关论文在MMDetection中使用的优化器及其代码实现。介绍了常用优化器如SGD、ADAM和ADAMW,以及多种学习率调整器。以RetinaNet为例,说明其优化器为sgd,学习率调整包含热身及指数衰减,并给出衰减公式,后期还会更新相关内容。

2568

被折叠的 条评论
为什么被折叠?



