PyTorch——自注意力（self-attention）机制实现（代码详解）

最新推荐文章于 2026-05-14 23:30:00 发布

原创

最新推荐文章于 2026-05-14 23:30:00 发布 · 10w+ 阅读

142

786

标签

#深度学习 #pytorch #神经网络 #attention #self-attention

本文深入介绍了自注意力机制（self-attention），作为特征提取层，它能够融合输入特征并生成新的表示。多头自注意力机制进一步增强了这种能力，通过拆分向量为多个头，捕捉不同维度的信息。文中还提供了详细的PyTorch代码实现，展示如何构建self-attention层及其在Transformer模型中的应用。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

参考链接

https://www.bilibili.com/video/BV1JE411g7XF?p=54
https://arxiv.org/abs/1706.03762
https://blog.csdn.net/qq_36653505/article/details/83375160

简述自注意力机制（self-attention）

self-attention可以视为一个特征提取层，给定输入特征 $a1,a2,⋅⋅⋅ana^{1},a^{2},\cdot \cdot \cdot a^{n}$ ，经过self-attention layer，融合每个输入特征，得到新的特征 $b1,b2,⋅⋅⋅bnb^{1},b^{2},\cdot \cdot \cdot b^{n}$ 。具体如下：

设输入特征为 $I$ ，分别将其乘以三个矩阵 $W^{q}$ 、 $W^{k}$ 和 $W^{v}$ 得到 $Q$ （query）、 $K$ （key）和 $V$ （value）三个矩阵；接下来使用矩阵 $Q$ 和 $K$ 的乘积得到注意力矩阵 $A$ ，归一化得到 $A^\hat{A}$ ；最后，将归一化后的注意力矩阵 $A^\hat{A}$ 乘上 $V$ ，得到最后的输出特征 $O$ 。
在这里插入图片描述