自注意力机制到底在“看”什么?从“眼神聚焦”到《Attention Is All You Need》

文章标签:#Transformer #自注意力机制 #深度学习 #自然语言处理 #大模型架构

很多人第一次接触 Transformer,只记住了标题:Attention Is All You Need。但这句话最容易让人误会的地方,恰恰是“all”。

Transformer 当然靠注意力起家,但它真正带来的改变,不是“只剩注意力”,而是把序列建模从“按顺序传递信息”改成了“按相关性组织信息”。如果只记一句,可以记这个版本:

自注意力决定“该看哪里”,FFN 决定“看完之后怎么加工”。

在这里插入图片描述

图 1:Transformer 的关键变化,不是给旧架构补一个模块,而是直接换了一种组织信息的方式。

它到底解决了什么问题?

在 Transformer 之前,主力是 RNN、LSTM、GRU。它们的问题很明显:必须按顺序处理,训练难并行;信息要沿时间步往后传,距离一长就容易衰减。CNN 虽然能并行,但想看远距离关系,通常也得堆很多层。

Transformer 的判断很直接:既然注意力可以直接连接任意两个位置,那就没必要再让信息绕着时间步慢慢传。Attention Is All You Need 真正想说的是:做序列建模,不必再依赖循环和卷积。

自注意力到底在做什么?

可以把它理解成“眼神聚焦”。一句话里,不同词的重要性并不一样。模型也一样:它会让每个词去看其他词,判断谁和我最相关、谁最值得参考。

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

公式看着吓人,核心其实只有四步:

  1. 把输入投影成 QKV
  2. QK 算相关性分数
  3. softmax 把分数变成权重
  4. 用权重对 V 加权求和,得到新的表示

在这里插入图片描述

图 2:先算相关性,再分配注意力,最后提取信息。

这里顺手澄清一个常见误解:QKV 不是输入自带的三个标签,而是同一个输入经过三组可学习矩阵后的三种投影。你也可以把它们理解成三个问题:

  • Q:我现在在找什么?
  • K:我能提供什么线索?
  • V:如果你关注我,我该给什么内容?

为什么还要多头?

如果只有一组 QKV,模型就只能用一种视角理解整句话。多头注意力的价值,不是重复算几次,而是把不同关系拆到不同子空间里并行建模。

在这里插入图片描述

图 3:单头像只戴一副眼镜,多头像同时切换几种观察镜片。

这也是为什么不同的头,常常会分别关注主谓关系、局部上下文、指代关系或长距离依赖。

为什么 Transformer 不等于“只有注意力”?

因为注意力更像“信息路由”,并不擅长充分加工信息。真正把内容继续变换的是 FFN,也就是前馈网络。所以更准确的说法不是“注意力就是全部”,而是:

注意力负责连接信息,FFN 负责变换信息。

除此之外,还有两个配角也不能省:

  • 位置编码:告诉模型顺序,不然它天然不知道“猫追狗”和“狗追猫”不同
  • 掩码:在生成任务里挡住未来信息,避免模型偷看答案

Transformer 骨架长什么样?

在这里插入图片描述

图 4:编码器负责看懂输入,解码器负责一步步生成输出。

从骨架上看,Transformer 是一套组合拳:

  • 编码器负责理解输入
  • 解码器负责生成输出
  • 每层都在交替做“注意力 + FFN”
  • 解码器里的自注意力要加因果掩码
  • 编码器输出会通过交叉注意力提供给解码器

所以,Transformer 真正强的地方,从来不是“注意力单兵作战”,而是整套组件配合。

注意:这个里边的transformer是最初为 翻译任务而实现的,所以存在 编码器 与解码器。 理解这个才能理解为什么后面GPT只用了DECODER

你现在再来品品:

解码器 ×N

编码器 ×N

K,V

输入嵌入 + 位置编码

多头自注意力

残差 + LayerNorm

FFN

残差 + LayerNorm

输出嵌入 + 位置编码

掩码多头自注意力

残差 + LayerNorm

交叉注意力 Q来自Decoder

残差 + LayerNorm

FFN

残差 + LayerNorm

线性层 + Softmax

它为什么影响这么大?

因为这套架构后面几乎长成了现代大模型的通用骨架:

  • GPT 主要用了最初翻译任务TRANSFORMER中的解码器
  • ViT 把 Transformer 带进了视觉领域

今天的 LLaMA、Claude、Gemini,本质上也都还站在这条路线之上。

最后只记一句

如果你以前把 Transformer 理解成“更高级的注意力模型”,那只对了一半。

更准确的说法是:Transformer先用自注意力解决长距离依赖和并行训练的问题,再用 FFN、位置编码和掩码把整套机制补完整,最终建立了现代大模型的基础骨架。

这里给些参考与延伸阅读

阅读原汁原味的才好:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值