【小白教程】用大白话通俗讲解AI大模型中的Transformer【无代码无公式版】

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

前言

自2025开年以来,Deepseek、Claude Sonnet 3.5等大语言模型(LLM)快速兴起,引领了几乎涵盖所有行业的AI变革。

而这场AI革命热潮的缘起,则不得不提Transformer模型,正是由它的颠覆性诞生,为后续Deepseek、OpenAI等模型提供了基础架构。

那什么是Transformer模型呢?网上有很多相关介绍,或是通俗讲解,从数学公式到Python代码,图文并茂、应有尽有。

但作为非科班出身,或对矩阵、深度学习兴趣不大的群体来说,阅读起来还是有些困难。于是就有了本文。

我对大语言模型非常感兴趣,特别是如何高效利用LLM去解决工作和生活中的问题。

欲知其然,需知其所以然。因此了解甚至掌握Transformer架构是我的目标,但不同于研发或算法,拘泥于实现细节也不是我想要的。

如果读者朋友希望从“还原论”出发,通过非常通俗的文字概念性了解Transformer的各组成部分及他们之间的相互作用,那欢迎你继续读下去。

图片

一、编码器(Encoder),左半图

1、词嵌入 & 位置编码(Embedding & Positional Encoding)

将我们输入的自然语言切分成文本处理的最小单元(token),例如“简单说数据分析”,可能被切分成“简单|说|数据|分析”这4个token

然后将这组token转化成计算机可以理解的数据,更专业说法是词向量

一个token对应一个词向量,如果一个词向量维度是255,那就意味“简单”被转化成255个数字,“说”、“数据”、“分析”也是同理

这时候,通俗来说,“简单说数据分析”就被转化成4(token数量) * 255 = 1020个数字

由于多头自注意力机制在处理数据时,不会关注每个词向量的位置,这就导致“小明打小红”和“小红打小明”在它看来是相同的字向量组

因此我们会把每个token的位置信息也添加到字向量中,具体方式是通过函数转化,由于涉及到公式,在这里略过不表

最终结论就是,本步骤将用户输入的自然语言,通过词嵌入转化成一组词向量,然后加上位置信息,输出到多头自注意力机制中

2、多头自注意力机制(Multi-Head Self-Attention)

这是Transformer模型的核心,它将在多个单元中分别独立分析上一步的结果信息,然后汇总成加工好的信息输出到前馈神经网络中

(1)首先这里的多个单元,对应了标题中的“多头”,即自注意力头,其具体数量取决于模型设计,例如GPT-3使用96个头,BERT-base使用12个头等等

具体到每一个头,可以把他们比喻成一个虚拟大脑,它会从三个角度,对输入的词向量组形成自己的理解。

为了便于讲解,我们暂时将这三个角度比喻为:词性(Q)、词与词的关系(K)、词义(V)

(2)通过对词性(Q)和词与词的关系(K)之间的信息融合,得到自注意力权重,加上词义,作为这个头的输出

我将用两个例子近似说明下**这个过程中,模型将会学习和判断的信息

-“我买了苹果和梨子”“我买了苹果手机”,两句话都包含“苹果”这个词,但前者是水果,后者是手机品牌

-“我要学习数据分析”“我分析表格里的数据得到结论”,两句话都有“分析”,但前者可以把它跟“数据”综合起来看,而后者的“分析”是一句话中的谓语动词

(3)每个注意力头都会给出它视角下的自注意力权重和词义,将所有自注意力头提供的信息汇总,输出到下一步

这一步可以从两个方面去理解:

-通过多个自注意力头,从更多的角度去理解和学习自然语言的含义,即“更全面地思考问题”

-通过更多的自注意力头的加权融合,降低对语言理解的随机性,即“群众的眼光是雪亮的”

3、残差连接 & 层归一化(Residual Connection & Layer Normalization)

残差连接,可以理解为保留副本,即同时将原始数据和加工后数据传到下一步

层归一化,通过数学方法,将数据大小始终保持在指定范围内,例如0~1之间

对于模型来说,比起绝对值大小,它更关注数字之间的关系

例如学校期末考试,语文数学外语满分150分,物理化学满分100分,综合满分30分

由于满分标准不同,对于一个学生来说,80分对数学来说是及格,但对物理来说是优秀

因此我们不妨将学生得分除以该科目的满分分数,即该学生数学为0.6,物理为0.9,这个过程可近似理解为归一化

4、前馈神经网络(Feed-Forward Network)

深度加工信息,增强Transformer模型的表达能力。

例如一根竖立着的木棍,如果从垂直视角看,只是一个圆

但从水平方向看,就是个长方形;要是从斜向看,得到的信息会更多更全面

通俗点说,本步骤就是寻找一个最佳视角,对输入信息做出尽可能充分地表达

最后将结果输出到解码器中,这里的结果可以称为“编码器记忆”

二、解码器(Decoder),右半图

1、词嵌入 & 位置编码(Embedding & Positional Encoding)

这里相较于编码器,最大的区别是输入。不是用户的自然语言,而是一个初始token和解码器输出的不断堆叠。

例如,第一轮的输入是“”这一个单词,通过解码器加工后输出“你”

该结果将成为第二轮输入,再次通过解码器加工,输出更多的信息

然后再将它作为新的一轮输入,自此循环,直到满足终止条件

2、掩码多头自注意力机制(Masked Multi-Head Self-Attention)

区别于之前提到的多头自注意力机制,关键在于多了“掩码”一词

简单说,对于语言类大模型的输出,我们通常希望它根据历史信息去预测下一个词是什么

因此通过引入掩码多头自注意力,让模型无法看到当前位置以后的信息

3、残差连接 & 层归一化(Residual Connection & Layer Normalization)

同编码器,主要是对自注意力机制输出的结果数据进行加工和融合

4、多头自注意力机制(Multi-Head Self-Attention)

这一步将融合前序中掩码多头自注意力层的输出,以及编码器记忆

在解码器中,掩码多头自注意力机制和多头自注意力机制同时存在,它们的作用是完全不同的,前者用来处理解码器自身输入的关系。而后者由于融合了编码器记忆,它将会建立解码器和编码器输出之间的关联。这样一来,才可以保证大模型输出的内容是针对用户输入自然语言的回答。

5、前馈神经网络(Feed-Forward Network)

同编码器,起到丰富表达的作用


再简单梳理一遍Transformer加工数据的全过程

1、信息首先进入"关联分析部门"(多头自注意力)

2、原始信息通过"双轨制"(残差连接)保留

3、经过"标准化部门"(层归一化)处理

4、最后送入"深度加工部门"(前馈网络)

这个过程会重复多次(多层编码器),就像一个文件要经过多个部门反复审核和完善,每经过一次处理,信息就变得更加精炼和有价值。

5、掩码多头自注意力层逐步输出信息

6、解码器注意力层随时查看原文

7、前馈网络持续优化产出的信息


最后记录一下稍微学术化的笔记,作为备注参考:

(1)Multi-Head Self-Attention:多头自注意力层,多个单元分别独立分析信息,然后汇总

(2)Feed-Forward Network:前馈神经网络,深度加工信息

(3)Residual Connection & Layer Normalization:残差连接 & 层归一化,保留副本、处理后信息,统一格式,传到后续环节

(4)输入词,通过词嵌入,得到词向量,并加上对应的位置编码,传入到多头自注意力层

(5)多头自注意力层中,自注意力头的数量是一个超参数,取决于模型设计,通常为8~16个,每个头都有自己的QKV权重矩阵

(6)针对每个自注意力头,用权重矩阵 * 词向量&位置编码,获得每个词的QKV;针对每个词的QKV,用Q点积K,获得每个词的自注意力权重,然后归一化,再乘以V

(7)针对每个自注意力头,词嵌入后,得到词与词之间的关系,通过WQ权重矩阵,获得该自注意力头对词向量独特视角,

(8)自注意力机制的输入,是会对整个段落做词嵌入和添加位置信息,自注意力机制同时处理整个序列

(9)前馈神经网络的作用是,通过两层全连接,对向量组进行非线性变化,目标是增强模型的表达能力

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值