常见大模型（llama,qwen,gpt)的结构，这些架构的区别

最新推荐文章于 2026-05-01 15:29:14 发布

原创

最新推荐文章于 2026-05-01 15:29:14 发布 · 2.3k 阅读

标签

#人工智能

收录于

目前主流的大语言模型（LLM）的代表有Meta的LLaMA系列、阿里的Qwen系列、OpenAI的GPT系列（如GPT-3、GPT-4）。它们都基于Transformer架构，但在具体实现和设计细节上存在一定差别。以下分点说明三者的基本结构及主要区别：

架构：标准的Decoder-Only Transformer
LayerNorm位置 ：采用“Pre-LN”结构，即LayerNorm在Attention/Multi-Layer Perceptron(MoE)模块之前。
注意力机制 ：采用RoPE（旋转位置编码，Rotary Position Embedding）。
Feed-Forward模块 ：标准FFN，小于GPT-3的宽度。
稀疏激活 ：部分版本支持MoE（Mixture-of-Experts）。
已经开源，可研究性强。