Batch Normalization和Layer Normalization

探讨在自然语言处理任务中,为何LayerNorm比BatchNorm更为适用。文章分析了两者的工作原理及其对NLP任务的影响,并从不同角度阐述了LayerNorm的优势。

1. Batch Norm,一般用在图像CNN上。

2. Layer Norm,一般用在RNN、Transformer上。

3. 公式:

4. \alpha\beta,都是每个“特征”一个。

一. Batch Norm

1. 

答案: A

2.

答案:B

3. 代码:

二. Layer Norm

1.

答案: B

2.

答案:C

3. 代码

三. 推理

答案:A

Batch Norm在训练阶段,一直在计算均值、方差的指数滑动平均;在推理阶段,使用的是训练阶段最后的滑动平均均值、方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值