常见大模型(llama,qwen,gpt)的结构,这些架构的区别

目前主流的大语言模型(LLM)的代表有Meta的LLaMA系列、阿里的Qwen系列、OpenAI的GPT系列(如GPT-3、GPT-4)。它们都基于Transformer架构,但在具体实现和设计细节上存在一定差别。以下分点说明三者的基本结构及主要区别:

相同点(共性)

  1. 基于Transformer结构
    • 都采用了Transformer解码器(Decoder-Only)的结构,用于自回归生成文本。
  2. 使用自注意力机制(Self-Attention)
    • 能够建模上下文依赖,捕捉长程依赖关系。
  3. 预训练+微调流程
    • 先通过海量数据自监督预训练,再针对特定任务微调或指令微调。

LLaMA结构(以LLaMA 2为例)

  • 架构 :标准的Decoder-Only Transformer
  • LayerNorm位置 :采用“Pre-LN”结构,即LayerNorm在Attention/Multi-Layer Perceptron(MoE)模块之前。
  • 注意力机制 :采用RoPE(旋转位置编码,Rotary Position Embedding)。
  • Feed-Forward模块 :标准FFN,小于GPT-3的宽度。
  • 稀疏激活 :部分版本支持MoE(Mixture-of-Experts)。
  • 已经开源,可研究性强。

GPT结构(以GPT-3/4为例)

  • 架构 :同样是Decoder-On
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值