目前主流的大语言模型(LLM)的代表有Meta的LLaMA系列、阿里的Qwen系列、OpenAI的GPT系列(如GPT-3、GPT-4)。它们都基于Transformer架构,但在具体实现和设计细节上存在一定差别。以下分点说明三者的基本结构及主要区别:
相同点(共性)
- 基于Transformer结构
- 都采用了Transformer解码器(Decoder-Only)的结构,用于自回归生成文本。
- 使用自注意力机制(Self-Attention)
- 能够建模上下文依赖,捕捉长程依赖关系。
- 预训练+微调流程
- 先通过海量数据自监督预训练,再针对特定任务微调或指令微调。
LLaMA结构(以LLaMA 2为例)
- 架构 :标准的Decoder-Only Transformer
- LayerNorm位置 :采用“Pre-LN”结构,即LayerNorm在Attention/Multi-Layer Perceptron(MoE)模块之前。
- 注意力机制 :采用RoPE(旋转位置编码,Rotary Position Embedding)。
- Feed-Forward模块 :标准FFN,小于GPT-3的宽度。
- 稀疏激活 :部分版本支持MoE(Mixture-of-Experts)。
- 已经开源,可研究性强。
GPT结构(以GPT-3/4为例)
- 架构 :同样是Decoder-On


8821

被折叠的 条评论
为什么被折叠?



