【小白教程】用大白话通俗讲解AI大模型中的Transformer【无代码无公式版】

最新推荐文章于 2026-03-06 17:03:22 发布

原创最新推荐文章于 2026-03-06 17:03:22 发布 · 800 阅读

24 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #transformer #大模型学习 #大模型入门 #大模型教程

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

前言

自2025开年以来，Deepseek、Claude Sonnet 3.5等大语言模型（LLM）快速兴起，引领了几乎涵盖所有行业的AI变革。

而这场AI革命热潮的缘起，则不得不提Transformer模型，正是由它的颠覆性诞生，为后续Deepseek、OpenAI等模型提供了基础架构。

那什么是Transformer模型呢？网上有很多相关介绍，或是通俗讲解，从数学公式到Python代码，图文并茂、应有尽有。

但作为非科班出身，或对矩阵、深度学习兴趣不大的群体来说，阅读起来还是有些困难。于是就有了本文。

我对大语言模型非常感兴趣，特别是如何高效利用LLM去解决工作和生活中的问题。

欲知其然，需知其所以然。因此了解甚至掌握Transformer架构是我的目标，但不同于研发或算法，拘泥于实现细节也不是我想要的。

如果读者朋友希望从“还原论”出发，通过非常通俗的文字概念性了解Transformer的各组成部分及他们之间的相互作用，那欢迎你继续读下去。

一、编码器（Encoder），左半图

1、词嵌入 & 位置编码（Embedding & Positional Encoding）

将我们输入的自然语言切分成文本处理的最小单元（token），例如“简单说数据分析”，可能被切分成“简单|说|数据|分析”这4个token

然后将这组token转化成计算机可以理解的数据，更专业说法是词向量

一个token对应一个词向量，如果一个词向量维度是255，那就意味“简单”被转化成255个数字，“说”、“数据”、“分析”也是同理

这时候，通俗来说，“简单说数据分析”就被转化成4（token数量） * 255 = 1020个数字

由于多头自注意力机制在处理数据时，不会关注每个词向量的位置，这就导致“小明打小红”和“小红打小明”在它看来是相同的字向量组

因此我们会把每个token的位置信息也添加到字向量中，具体方式是通过函数转化，由于涉及到公式，在这里略过不表

最终结论就是，本步骤将用户输入的自然语言，通过词嵌入转化成一组词向量，然后加上位置信息，输出到多头自注意力机制中

2、多头自注意力机制（Multi-Head Self-Attention）

这是Transformer模型的核心，它将在多个单元中分别独立分析上一步的结果信息，然后汇总成加工好的信息输出到前馈神经网络中

（1）首先这里的多个单元，对应了标题中的“多头”，即自注意力头，其具体数量取决于模型设计，例如GPT-3使用96个头，BERT-base使用12个头等等

具体到每一个头，可以把他们比喻成一个虚拟大脑，它会从三个角度，对输入的词向量组形成自己的理解。

为了便于讲解，我们暂时将这三个角度比喻为：词性（Q）、词与词的关系（K）、词义（V）

（2）通过对词性（Q）和词与词的关系（K）之间的信息融合，得到自注意力权重，加上词义，作为这个头的输出

我将用两个例子近似说明下**这个过程中，模型将会学习和判断的信息

-“我买了苹果和梨子”“我买了苹果手机”，两句话都包含“苹果”这个词，但前者是水果，后者是手机品牌

-“我要学习数据分析”“我分析表格里的数据得到结论”，两句话都有“分析”，但前者可以把它跟“数据”综合起来看，而后者的“分析”是一句话中的谓语动词

（3）每个注意力头都会给出它视角下的自注意力权重和词义，将所有自注意力头提供的信息汇总，输出到下一步

这一步可以从两个方面去理解：

-通过多个自注意力头，从更多的角度去理解和学习自然语言的含义，即“更全面地思考问题”

-通过更多的自注意力头的加权融合，降低对语言理解的随机性，即“群众的眼光是雪亮的”

3、残差连接 & 层归一化（Residual Connection & Layer Normalization）

残差连接，可以理解为保留副本，即同时将原始数据和加工后数据传到下一步

层归一化，通过数学方法，将数据大小始终保持在指定范围内，例如0～1之间

对于模型来说，比起绝对值大小，它更关注数字之间的关系

例如学校期末考试，语文数学外语满分150分，物理化学满分100分，综合满分30分

由于满分标准不同，对于一个学生来说，80分对数学来说是及格，但对物理来说是优秀

因此我们不妨将学生得分除以该科目的满分分数，即该学生数学为0.6，物理为0.9，这个过程可近似理解为归一化

4、前馈神经网络（Feed-Forward Network）

深度加工信息，增强Transformer模型的表达能力。

例如一根竖立着的木棍，如果从垂直视角看，只是一个圆

但从水平方向看，就是个长方形；要是从斜向看，得到的信息会更多更全面

通俗点说，本步骤就是寻找一个最佳视角，对输入信息做出尽可能充分地表达

最后将结果输出到解码器中，这里的结果可以称为“编码器记忆”

二、解码器（Decoder），右半图

1、词嵌入 & 位置编码（Embedding & Positional Encoding）

这里相较于编码器，最大的区别是输入。不是用户的自然语言，而是一个初始token和解码器输出的不断堆叠。

例如，第一轮的输入是“”这一个单词，通过解码器加工后输出“你”

该结果将成为第二轮输入，再次通过解码器加工，输出更多的信息

然后再将它作为新的一轮输入，自此循环，直到满足终止条件

2、掩码多头自注意力机制（Masked Multi-Head Self-Attention）

区别于之前提到的多头自注意力机制，关键在于多了“掩码”一词

简单说，对于语言类大模型的输出，我们通常希望它根据历史信息去预测下一个词是什么

因此通过引入掩码多头自注意力，让模型无法看到当前位置以后的信息

3、残差连接 & 层归一化（Residual Connection & Layer Normalization）

同编码器，主要是对自注意力机制输出的结果数据进行加工和融合

4、多头自注意力机制（Multi-Head Self-Attention）

这一步将融合前序中掩码多头自注意力层的输出，以及编码器记忆

在解码器中，掩码多头自注意力机制和多头自注意力机制同时存在，它们的作用是完全不同的，前者用来处理解码器自身输入的关系。而后者由于融合了编码器记忆，它将会建立解码器和编码器输出之间的关联。这样一来，才可以保证大模型输出的内容是针对用户输入自然语言的回答。

5、前馈神经网络（Feed-Forward Network）

同编码器，起到丰富表达的作用

再简单梳理一遍Transformer加工数据的全过程

1、信息首先进入"关联分析部门"（多头自注意力）

2、原始信息通过"双轨制"（残差连接）保留

3、经过"标准化部门"（层归一化）处理

4、最后送入"深度加工部门"（前馈网络）

这个过程会重复多次（多层编码器），就像一个文件要经过多个部门反复审核和完善，每经过一次处理，信息就变得更加精炼和有价值。

5、掩码多头自注意力层逐步输出信息

6、解码器注意力层随时查看原文

7、前馈网络持续优化产出的信息

最后记录一下稍微学术化的笔记，作为备注参考：

（1）Multi-Head Self-Attention：多头自注意力层，多个单元分别独立分析信息，然后汇总

（2）Feed-Forward Network：前馈神经网络，深度加工信息

（3）Residual Connection & Layer Normalization：残差连接 & 层归一化，保留副本、处理后信息，统一格式，传到后续环节

（4）输入词，通过词嵌入，得到词向量，并加上对应的位置编码，传入到多头自注意力层

（5）多头自注意力层中，自注意力头的数量是一个超参数，取决于模型设计，通常为8~16个，每个头都有自己的QKV权重矩阵

（6）针对每个自注意力头，用权重矩阵 * 词向量&位置编码，获得每个词的QKV；针对每个词的QKV，用Q点积K，获得每个词的自注意力权重，然后归一化，再乘以V

（7）针对每个自注意力头，词嵌入后，得到词与词之间的关系，通过WQ权重矩阵，获得该自注意力头对词向量独特视角，

（8）自注意力机制的输入，是会对整个段落做词嵌入和添加位置信息，自注意力机制同时处理整个序列

（9）前馈神经网络的作用是，通过两层全连接，对向量组进行非线性变化，目标是增强模型的表达能力

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。