pytorch 模型参数不更新,模型不训练,loss不变,参数没有梯度
于 2022-07-25 10:12:48 首次发布
本文探讨了深度学习训练中常见的问题,包括学习率过大导致模型无法收敛、小批量梯度下降的影响、ReLU激活函数的零梯度问题、优化器未包含模型参数、argmax操作对梯度的影响以及softmax在反向传播中的限制。建议使用适当的学习率调度策略、增大batch size、考虑使用Leaky ReLU或其它激活函数、确保optimizer正确初始化所有参数,并用one-hot编码替代argmax,以及利用log_softmax进行损失计算。

6016

被折叠的 条评论
为什么被折叠?



