Transformers without Normalization解读

最新推荐文章于 2025-06-18 11:26:26 发布

原创

最新推荐文章于 2025-06-18 11:26:26 发布 · 1.2k 阅读

·

15

·

标签

#人工智能

2025年3月13日，由何凯明和Yann LeCun领衔的论文Transformers without Normalization挂载Arxiv上，大佬论文必须读一下。本文就该论文进行一个简单总结。

1.论文解读

这份研究论文挑战了深度神经网络中标准化层（如 Layer Norm）的必要性。作者提出了一种名为 Dynamic Tanh (DyT) 的简单元素操作，可以有效地替代 Transformer 架构中的标准化层，并取得与标准化模型相当甚至更好的性能。

作者通过分析发现，标准化层（如 Layer Norm）的输出与 tanh 函数的 S 形曲线相似，即对输入进行缩放并压缩极端值。论文中的图2说明标准化层并非简单的线性变换，而是会对输入数据进行非线性压缩，特别是对极端值进行压缩。这种非线性压缩效果可能是标准化层对深度神经网络训练至关重要的原因之一。在模型的前几层 LN 层，输入输出关系接近直线，这是因为输入数据的范围较小，经过 LN 层处理后，变化幅度也较小。随着模型层数的增加，输入数据的范围变大，经过 LN 层处理后，极端值被压缩，使得输入输出关系更接近 S 形曲线。

作者提出的操作定义为： $DyT(x)=γ∗tanh(αx)+β\mathrm{DyT}(x)=\gamma*\mathrm{tanh}(\alpha x)+\beta$

其中 $α\alpha$ 是一个可学习标量参数， $γ\gamma$ 和 $β\beta$ 是同维度的矢量。 $DyT\mathrm{DyT}$ 通过学习合适的缩放因子 $α\alpha$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。