《大模型的结构》

原创于 2026-04-28 16:24:39 发布 · 260 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

一、大模型整体结构

一个大模型其实就是：
文本 -> tokenizer(分词器) -> embedding（变成向量） -> Transformer（核心大脑） -> 输出

比如输入：This Paper is interesting

[“This” , “paper” , “is” , “interest” , “ing”]
再变成Token ID（每个大模型的Token ID是不一样的）：
[101,2023,20021,…]

模型不会直接用数字ID，会变成“向量”（一小串数字）：101 -> [0.12, -0.98, 0.33, …]
可以简单的理解为：token -> 坐标点（语义空间）

这是大模型最重要的部分，它让每个词互相理解对方
核心机制： Self-Attention(自注意力)
比如：The paper is not good，模型会学“good”要注意“not”，“paper”和“good”有关系，所以每个token都会看其他token

**Transformer结构：**一个Transformer层大概是：Self-Attention -> Feed Forward（小神经网络） -> 重复很多层（比如12层/32层/96层）
GPT-4这种，几十到上百层Transformer

不同模型输出不同：
GPT（生成模型）： 输入：This paper is 输出：interesting
**BERT（分类模型）**输入：This paper is interesting 输出：accept / reject

文本
↓
tokenizer
↓
token IDs
↓
embedding（变向量）
↓
Transformer（理解语义）
↓
输出（预测 / 生成）

把它想成一个“超级读书人”：
1、tokenizer -> 切词
2、embeding -> 理解词的含义
3、attention -> 看上下文
4、多层网络 -> 深度思考
5、输出 -> 给答案