1. Batch Norm,一般用在图像CNN上。
2. Layer Norm,一般用在RNN、Transformer上。
3. 公式:
4.
和
,都是每个“特征”一个。
一. Batch Norm
1.
答案: A
2.
答案:B
3. 代码:
二. Layer Norm
1.
答案: B
2.
答案:C
3. 代码
三. 推理
答案:A
Batch Norm在训练阶段,一直在计算均值、方差的指数滑动平均;在推理阶段,使用的是训练阶段最后的滑动平均均值、方差。
探讨在自然语言处理任务中,为何LayerNorm比BatchNorm更为适用。文章分析了两者的工作原理及其对NLP任务的影响,并从不同角度阐述了LayerNorm的优势。
1. Batch Norm,一般用在图像CNN上。
2. Layer Norm,一般用在RNN、Transformer上。
3. 公式:
4.
和
,都是每个“特征”一个。
一. Batch Norm
1.
答案: A
2.
答案:B
3. 代码:
二. Layer Norm
1.
答案: B
2.
答案:C
3. 代码
三. 推理
答案:A
Batch Norm在训练阶段,一直在计算均值、方差的指数滑动平均;在推理阶段,使用的是训练阶段最后的滑动平均均值、方差。
5563
2692
3809

被折叠的 条评论
为什么被折叠?
