《大模型的结构》

一、大模型整体结构

一个大模型其实就是:
文本 -> tokenizer(分词器) -> embedding(变成向量) -> Transformer(核心大脑) -> 输出

二、具体步骤

1、文本输入

比如输入:This Paper is interesting

2、分词器(tokenizer)

[“This” , “paper” , “is” , “interest” , “ing”]
再变成Token ID(每个大模型的Token ID是不一样的):
[101,2023,20021,…]

3、Embedding

模型不会直接用数字ID,会变成“向量”(一小串数字):101 -> [0.12, -0.98, 0.33, …]
可以简单的理解为:token -> 坐标点(语义空间)

4、Transformer(核心大脑)

这是大模型最重要的部分,它让每个词互相理解对方
核心机制: Self-Attention(自注意力)
比如:The paper is not good,模型会学“good”要注意“not”,“paper”和“good”有关系,所以每个token都会看其他token

**Transformer结构:**一个Transformer层大概是:Self-Attention -> Feed Forward(小神经网络) -> 重复很多层(比如12层/32层/96层)
GPT-4这种,几十到上百层Transformer

5、输出

不同模型输出不同:
GPT(生成模型): 输入:This paper is 输出:interesting
**BERT(分类模型)**输入:This paper is interesting 输出:accept / reject

三、总结成一个流程图

文本

tokenizer

token IDs

embedding(变向量)

Transformer(理解语义)

输出(预测 / 生成)

四、可以这样理解整个模型

把它想成一个“超级读书人”:
1、tokenizer -> 切词
2、embeding -> 理解词的含义
3、attention -> 看上下文
4、多层网络 -> 深度思考
5、输出 -> 给答案

五、BERT vs GPT

BERTGPT
方向双向(看前后)单向(只看前)
用途分类/理解生成
例子accept/reject写review
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值