Transformer原理硬核解析：Self-Attention与位置编码

原创

已于 2025-03-11 18:42:17 修改 · 1.2k 阅读

标签

#transformer #深度学习 #人工智能

收录于

于 2025-03-11 18:41:27 首次发布

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

🔍 Transformer 是自然语言处理（NLP）的“革命性”模型，彻底取代了RNN/CNN的序列建模方式。其核心在于Self-Attention机制和位置编码设计。本文用最直观的方式带你彻底搞懂这两大核心原理！

📌 Self-Attention：为什么能“看见全局”？

🌟 核心思想

Self-Attention（自注意力）让每个词都能直接与序列中所有其他词交互，捕捉长距离依赖关系。与RNN的“顺序处理”不同，Self-Attention通过矩阵并行计算实现高效全局建模。

🔥 计算步骤

输入向量：将输入词嵌入（Embedding）为向量（n为序列长度，d为维度）。
生成Q/K/V：通过线性变换得到Query、Key、Value矩阵：
计算注意力分数：

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

码农突围计划

关注关注

24
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

人工智能学习（八）Attention机制中的位置编码(固定）

weixin_43869415的博客

01-13

2347

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、为什么要引入位置编码二、位置编码的实现方式2.1 位置编码实现2.1 绝对位置编码信息2.2 相对位置编码信息提示：以下是本篇文章正文内容，下面案例可供参考一、为什么要引入位置编码 我们都知道Attention是一种模拟生物注意力的机制。我们可以通过简单的全连接层或者汇聚层来实现非自主性注意力。也可以通过注意力机制即查询匹配的方式来实现自主性的注意力。同样注意力机制在NLP中虽然能够较好应对长句子的情况，但是他的计算复杂

参与评论您还未登录，请先登录后发表或查看评论

【深度学习】位置编码

研究兴趣：开放集识别、开放世界识别、新类发现、增量学习、少样本学习

04-28

2671

Transformer、DETR、Swin Transformer中的位置编码

Transformer位置编码原理与实现详解

weixin_42506884的博客

04-23

265

位置编码是Transformer架构中的关键技术，用于为自注意力机制提供序列位置信息。自注意力机制本身具有排列不变性，无法感知输入元素的顺序，这在自然语言处理等任务中至关重要。通过引入位置编码，模型能够理解序列中元素的相对或绝对位置，从而提升机器翻译、文本生成等任务的性能。常见的位置编码方法包括学习式位置嵌入、相对位置编码和正弦/余弦编码，其中正弦编码因其优秀的长度泛化能力和计算效率被广泛采用。本文深入解析了正弦位置编码的数学原理，包括其基础公式、可视化理解及有效性分析，并提供了PyTorch实现代码和优化

LLMs组件系列：Attention排列不变性与位置编码（超详细）

jpw41的博客

08-25

2807

Transformer注意力可并行计算的特性既是其相较于RNN的优势，也使其丢失了时间步语义信息，所以位置编码 (positional encodings) 是Transformer这种并行结构必须要有的，否则机器就会已读乱回。但位置编码原理是什么，工程上怎么实现呢？网上有许多讲解位置编码的方案，但很多都为了文章篇幅而舍弃掉一些前置信息，如果没有基础看起来还是比较吃力的。为此，本文用篇幅换取详细度，介绍详细介绍了当前四种主流的位置编码方案，包看懂的。

一文搞懂Transformer的位置编码

热门推荐

xian0710830114的专栏

10-08

2万+

本文介绍Transformer的位置编码，有图有表有推导，看不懂你打我！！！在Transformer出现以前，NLP任务大多是以RNN、LSTM为代表的循环处理方式，即一个token一个token的输入到模型当中。这种设计存在天生的缺陷。为了解决这些缺陷，Transformer把token的顺序信号加到词向量上帮助模型学习这些信息，这就位置编码（Positional Encoding）。接下来的内容不会涉及Self-Attention等牛逼的创新设计，只讨论位置编码，希望对大家有所帮助。

【AI知识片段】Transformer模型中的位置编码

qq_44091004的博客

01-21

2030

位置编码描述序列中实体的位置或位置，以便为每个位置分配唯一的表示形式。单个数字（如索引值）不用于表示项目在转换器模型中的位置的原因有很多。对于长序列，索引的量级可能会变大。如果将索引值归一化为介于 0 和 1 之间，则可能会对可变长度序列产生问题，因为它们的归一化方式会有所不同。转换器使用智能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行表示序列的一个编码对象，该序列与其位置信息相加。仅对位置信息进行编码的矩阵示例如下图所示。

打破 CNN 统治！Vision Transformer 硬核原理解析与 PyTorch 实战

等风来

12-01

1103

在计算机视觉（CV）的江湖里，CNN 曾是当之无愧的霸主。直到 2020 年，Google 一纸 Vision Transformer (ViT) 横空出世，不仅打破了 NLP 与 CV 的壁垒，更用“大力出奇迹”的方式告诉我们：只要算力够，Attention 就是你所需要的一切。本文将抛开晦涩的论文术语，用“拼图游戏”的思维拆解 ViT，配合 PyTorch 源码，带你彻底搞懂这个里程碑式的架构。

Transformer原理解析——一种Open AI和DeepMind都在用的神经网络架构

weixin_33915554的博客

03-21

4196

Transformer模型是一种日益流行的神经网络结构。它最近被OpenAI用于他们的语言模型中。与此同时，近期也被DeepMind用于它们的程序“星际争霸”中击败了一名顶级职业星际玩家。 Transformer模型的开发是为了解决序列转换及神经机器翻译问题。这意味着可以解决任何sequence to sequence问题，例如语音识别、文本到语音转换等...

Transformer原理解析——一种Open AI和DeepMind都在用的神经网络架构 ...

测试0901-1

03-21

3172

BERT底层原理深度解析：从Tokenizer到Multi-Head Attention的硬核拆解

最新发布

weixin_29668665的博客

06-11

291

BERT作为现代大语言模型的地基，其核心在于双向自编码架构与掩码语言建模（MLM）的协同设计。它通过WordPiece子词切分平衡OOV率与序列长度，以可学习位置编码适配工业场景，并依赖三类Embedding相加融合实现信息解耦。Multi-Head Attention中Q/K/V矩阵独立参数保障语义有向性，而Feed-Forward网络的4倍维度放大则服务于非线性语义蒸馏。这些机制共同支撑了文本分类、命名实体识别、问答匹配等下游任务的稳定迁移能力，尤其在金融、医疗等专业领域微调与领域自适应中仍具不可替代的

(超易懂) Transformer位置编码设计原理详解

Fan19zju的博客

10-05

2750

本文逐步剖析了transformer的位置编码设计原理，帮助读者更好理解这个奇怪而抽象的公式

深入理解transformer中的位置编码

qq_43391414的博客

10-31

1万+

啊打发

Transformer原理详解

敷衍zgf的博客

10-23

8640

Transformer原理详细分析

深入理解Transformer的位置编码机制

贾贾的博客

04-08

1343

位置编码是Transformer模型处理序列数据的关键机制之一，它通过向模型提供每个元素的位置信息，使得模型能够在缺乏传统序列处理机制（如RNN和CNN）的情况下，有效地处理序列数据。位置编码的设计体现了Transformer模型的一个重要优势——能够在保持模型结构简单的同时，通过巧妙的方法捕捉序列中的复杂关系。

Transformer中的位置编码：绝对位置编码、相对位置编码与旋转位置编码

python123456_的博客

08-20

2万+

位置编码是Transformer模型中至关重要的一部分，不同的编码方式适用于不同的任务和数据类型。本文详细介绍了绝对位置编码、相对位置编码和旋转位置编码的原理、实现及应用，通过具体的案例分析展示了它们在实际任务中的表现。随着NLP领域的不断发展，新的位置编码方法可能会不断涌现，进一步提升Transformer模型在复杂任务中的表现。了解并掌握这些位置编码方法，将有助于研究人员和工程师更好地应用Transformer模型，处理各种序列数据，提升模型的性能和应用效果。

【学习】注意力机制（Attention）和自注意力机制（self-Attention）

qq_46110320的博客

04-07

2498

我们还得进行一个汇总，当你使用 Q 查询结束了后，Q 已经失去了它的使用价值了，我们最终还是要拿到这张图片的，只不过现在的这张图片，它多了一些信息（多了于我而言更重要，更不重要的信息在这里）。这样的话，就得到了一个新的 V’，这个新的 V’ 就包含了，哪些更重要，哪些不重要的信息在里面，然后用 V’ 代替 V。这里的 its 做了自注意力，其包含了这句话所有词的信息，并且对Law的相似度最高，所以这里的its最有可能代表its。我（查询对象 Q），这张图（被查询对象 V），图中包含的模块（K）。

学习笔记|自注意力机制(self-attention)——考虑全局又聚焦重点

oXiLang的博客

03-09

5827

有时候我们期望网络能够看到全局，但是又要聚焦到重点信息上。比如在在做自然语言处理时，句子中的一个词往往不是独立的，和它上下文相关，但是和上下文中不同的词的相关性是不同的，所以我们在处理这个词时，在看到它的上下文的同时也要更加聚焦与它相关性更高的词，这就要用到常说的"自注意力机制"。

自注意力机制中的位置编码

步入人工智能

05-26

3713

本内容主要介绍自注意力（Self-Attention）机制中的位置编码。

自注意力（Self-Attention）和位置编码

weixin_73557167的博客

05-05

805

自注意力（Self-Attention）和位置编码

解构自注意力

猫头军师兵书

01-13

2490

向量自相关