文章标签:#Transformer #自注意力机制 #深度学习 #自然语言处理 #大模型架构
文章目录
很多人第一次接触 Transformer,只记住了标题:Attention Is All You Need。但这句话最容易让人误会的地方,恰恰是“all”。
Transformer 当然靠注意力起家,但它真正带来的改变,不是“只剩注意力”,而是把序列建模从“按顺序传递信息”改成了“按相关性组织信息”。如果只记一句,可以记这个版本:
自注意力决定“该看哪里”,FFN 决定“看完之后怎么加工”。

图 1:Transformer 的关键变化,不是给旧架构补一个模块,而是直接换了一种组织信息的方式。
它到底解决了什么问题?
在 Transformer 之前,主力是 RNN、LSTM、GRU。它们的问题很明显:必须按顺序处理,训练难并行;信息要沿时间步往后传,距离一长就容易衰减。CNN 虽然能并行,但想看远距离关系,通常也得堆很多层。
Transformer 的判断很直接:既然注意力可以直接连接任意两个位置,那就没必要再让信息绕着时间步慢慢传。Attention Is All You Need 真正想说的是:做序列建模,不必再依赖循环和卷积。
自注意力到底在做什么?
可以把它理解成“眼神聚焦”。一句话里,不同词的重要性并不一样。模型也一样:它会让每个词去看其他词,判断谁和我最相关、谁最值得参考。
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
公式看着吓人,核心其实只有四步:
- 把输入投影成
Q、K、V - 用
Q和K算相关性分数 - 用
softmax把分数变成权重 - 用权重对
V加权求和,得到新的表示

图 2:先算相关性,再分配注意力,最后提取信息。
这里顺手澄清一个常见误解:Q、K、V 不是输入自带的三个标签,而是同一个输入经过三组可学习矩阵后的三种投影。你也可以把它们理解成三个问题:
Q:我现在在找什么?K:我能提供什么线索?V:如果你关注我,我该给什么内容?
为什么还要多头?
如果只有一组 QKV,模型就只能用一种视角理解整句话。多头注意力的价值,不是重复算几次,而是把不同关系拆到不同子空间里并行建模。

图 3:单头像只戴一副眼镜,多头像同时切换几种观察镜片。
这也是为什么不同的头,常常会分别关注主谓关系、局部上下文、指代关系或长距离依赖。
为什么 Transformer 不等于“只有注意力”?
因为注意力更像“信息路由”,并不擅长充分加工信息。真正把内容继续变换的是 FFN,也就是前馈网络。所以更准确的说法不是“注意力就是全部”,而是:
注意力负责连接信息,FFN 负责变换信息。
除此之外,还有两个配角也不能省:
- 位置编码:告诉模型顺序,不然它天然不知道“猫追狗”和“狗追猫”不同
- 掩码:在生成任务里挡住未来信息,避免模型偷看答案
Transformer 骨架长什么样?

图 4:编码器负责看懂输入,解码器负责一步步生成输出。
从骨架上看,Transformer 是一套组合拳:
- 编码器负责理解输入
- 解码器负责生成输出
- 每层都在交替做“注意力 + FFN”
- 解码器里的自注意力要加因果掩码
- 编码器输出会通过交叉注意力提供给解码器
所以,Transformer 真正强的地方,从来不是“注意力单兵作战”,而是整套组件配合。
注意:这个里边的transformer是最初为 翻译任务而实现的,所以存在 编码器 与解码器。 理解这个才能理解为什么后面GPT只用了DECODER。
你现在再来品品:
它为什么影响这么大?
因为这套架构后面几乎长成了现代大模型的通用骨架:
- GPT 主要用了最初翻译任务TRANSFORMER中的解码器
- ViT 把 Transformer 带进了视觉领域
今天的 LLaMA、Claude、Gemini,本质上也都还站在这条路线之上。
最后只记一句
如果你以前把 Transformer 理解成“更高级的注意力模型”,那只对了一半。
更准确的说法是:Transformer先用自注意力解决长距离依赖和并行训练的问题,再用 FFN、位置编码和掩码把整套机制补完整,最终建立了现代大模型的基础骨架。
这里给些参考与延伸阅读
阅读原汁原味的才好:
- Attention Is All You Need (Vaswani et al., 2017):Transformer 原始论文
- The Illustrated Transformer (Jay Alammar):视觉化理解 Transformer 最经典的博客之一

401

被折叠的 条评论
为什么被折叠?



