自注意力机制到底在“看”什么？从“眼神聚焦”到《Attention Is All You Need》

原创已于 2026-06-22 09:54:47 修改 · 199 阅读

·

4

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#人工智能 #AI编程 #自注意力 #机器学习

于 2026-06-22 09:25:21 首次发布

AI跟进与分享专栏收录该内容

7 篇文章

订阅专栏

文章标签：#Transformer #自注意力机制 #深度学习 #自然语言处理 #大模型架构

文章目录

很多人第一次接触 Transformer，只记住了标题：Attention Is All You Need。但这句话最容易让人误会的地方，恰恰是“all”。

Transformer 当然靠注意力起家，但它真正带来的改变，不是“只剩注意力”，而是把序列建模从“按顺序传递信息”改成了“按相关性组织信息”。如果只记一句，可以记这个版本：

自注意力决定“该看哪里”，FFN 决定“看完之后怎么加工”。

在这里插入图片描述

图 1：Transformer 的关键变化，不是给旧架构补一个模块，而是直接换了一种组织信息的方式。

它到底解决了什么问题？

在 Transformer 之前，主力是 RNN、LSTM、GRU。它们的问题很明显：必须按顺序处理，训练难并行；信息要沿时间步往后传，距离一长就容易衰减。CNN 虽然能并行，但想看远距离关系，通常也得堆很多层。

Transformer 的判断很直接：既然注意力可以直接连接任意两个位置，那就没必要再让信息绕着时间步慢慢传。Attention Is All You Need 真正想说的是：做序列建模，不必再依赖循环和卷积。

自注意力到底在做什么？

可以把它理解成“眼神聚焦”。一句话里，不同词的重要性并不一样。模型也一样：它会让每个词去看其他词，判断谁和我最相关、谁最值得参考。

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

公式看着吓人，核心其实只有四步：

把输入投影成 Q、K、V
用 Q 和 K 算相关性分数
用 softmax 把分数变成权重
用权重对 V 加权求和，得到新的表示

在这里插入图片描述

图 2：先算相关性，再分配注意力，最后提取信息。

这里顺手澄清一个常见误解：Q、K、V 不是输入自带的三个标签，而是同一个输入经过三组可学习矩阵后的三种投影。你也可以把它们理解成三个问题：

Q：我现在在找什么？
K：我能提供什么线索？
V：如果你关注我，我该给什么内容？

为什么还要多头？

如果只有一组 QKV，模型就只能用一种视角理解整句话。多头注意力的价值，不是重复算几次，而是把不同关系拆到不同子空间里并行建模。

在这里插入图片描述

图 3：单头像只戴一副眼镜，多头像同时切换几种观察镜片。

这也是为什么不同的头，常常会分别关注主谓关系、局部上下文、指代关系或长距离依赖。

为什么 Transformer 不等于“只有注意力”？

因为注意力更像“信息路由”，并不擅长充分加工信息。真正把内容继续变换的是 FFN，也就是前馈网络。所以更准确的说法不是“注意力就是全部”，而是：

注意力负责连接信息，FFN 负责变换信息。

除此之外，还有两个配角也不能省：

位置编码：告诉模型顺序，不然它天然不知道“猫追狗”和“狗追猫”不同
掩码：在生成任务里挡住未来信息，避免模型偷看答案

Transformer 骨架长什么样？

在这里插入图片描述

图 4：编码器负责看懂输入，解码器负责一步步生成输出。

从骨架上看，Transformer 是一套组合拳：

编码器负责理解输入
解码器负责生成输出
每层都在交替做“注意力 + FFN”
解码器里的自注意力要加因果掩码
编码器输出会通过交叉注意力提供给解码器

所以，Transformer 真正强的地方，从来不是“注意力单兵作战”，而是整套组件配合。

注意：这个里边的transformer是最初为翻译任务而实现的，所以存在编码器与解码器。理解这个才能理解为什么后面GPT只用了DECODER。

你现在再来品品：

它为什么影响这么大？

因为这套架构后面几乎长成了现代大模型的通用骨架：

GPT 主要用了最初翻译任务TRANSFORMER中的解码器
ViT 把 Transformer 带进了视觉领域

今天的 LLaMA、Claude、Gemini，本质上也都还站在这条路线之上。

最后只记一句

如果你以前把 Transformer 理解成“更高级的注意力模型”，那只对了一半。

更准确的说法是：Transformer先用自注意力解决长距离依赖和并行训练的问题，再用 FFN、位置编码和掩码把整套机制补完整，最终建立了现代大模型的基础骨架。

这里给些参考与延伸阅读

阅读原汁原味的才好：

Attention Is All You Need (Vaswani et al., 2017)：Transformer 原始论文
The Illustrated Transformer (Jay Alammar)：视觉化理解 Transformer 最经典的博客之一

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。