MOE架构大模型

最新推荐文章于 2026-06-24 15:42:54 发布

原创最新推荐文章于 2026-06-24 15:42:54 发布 · 2.8k 阅读

17 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#架构 #人工智能

大模型专栏收录该内容

2 篇文章

订阅专栏

Qwen3.5-9B

Qwen3.5 具备以下增强特性：统一的视觉-语言基础：通过在多模态 token 上进行早期融合训练，在跨代性能上与 Qwen3 持平，并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。高效混合架构：结合门控 Delta 网络与稀疏混合专家（Mixture-of-Experts），实现高吞吐推理，同时保持极低的延迟和成本开销。可扩展的强化学习泛化能力：在百万

混合专家模型（MoE）通过动态分配输入数据至不同专家网络，在提升模型性能的同时降低计算成本，已成为大模型时代的主流架构之一。以下是2025年主流的MoE模型及其核心特点：

一、自然语言处理领域

GPT-4
由8个2200亿参数的专家构成，通过稀疏门控机制动态激活相关专家，在多样化数据集和任务上展现出卓越泛化能力。其设计理念为后续MoE模型奠定了基础。
DeepSeek-V3
采用MoE架构，拥有6710亿参数和37亿激活参数，在多项评测中超越传统稠密模型，尤其在长文本推理和代码生成任务中表现突出。
腾讯混元系列
- 混元多模态理解模型：国内首个基于MoE的多模态大模型，支持7K分辨率图像理解，可同时处理文本与视觉信息。
- Hunyuan-Large：开源的3890亿参数MoE模型，激活参数仅52亿，支持256K超长token输入，适用于文档分析和对话系统。
- Hunyuan-TurboS：混合Transformer-Mamba的MoE模型，结合Mamba的线性复杂度长序列处理能力与Transformer的深度语义理解，长文本处理成本降低60%。
Mixtral-8x7B
由8个7B参数专家组成，总参数量56B但推理时仅激活部分专家，计算效率显著优于稠密模型，在代码生成和数学推理任务中表现优异。
Meta Llama 4系列
- Llama 4 Scout：16位专家模块，1090亿总参数，支持单卡运行1000万token上下文，适合个人开发者部署。
- Llama 4 Maverick：128位专家模块，4000亿总参数，推理成本仅为GPT-4o的1/23，在编程、数学任务中超越主流闭源模型。
- Llama 4 Behemoth（预告）：2万亿总参数，专攻STEM领域，数学基准测试碾压GPT-4.5。
华为Pangu Ultra MoE
准万亿级MoE模型，采用256个路由专家（每个token激活8个），总参数量718B。通过DSSN稳定架构和TinyInit初始化技术，在昇腾NPU上实现10+T tokens数据的长期稳定训练，推理阶段通过MLA注意力机制压缩KV Cache空间，提升效率。

二、计算机视觉领域

Vision-MoE（V-MoE）
将ViT中的密集FFN层替换为稀疏MoE，允许通过增加专家数量扩展模型容量，在图像分类和目标检测任务中实现SOTA性能。
MambaVision
英伟达团队研发的混合架构，前两阶段用CNN提取高分辨率特征，后两阶段融合Mamba与Transformer模块。重新设计的Mamba块采用常规卷积替代因果卷积，并新增对称分支，在ImageNet-1K上实现Top-1准确率和吞吐量的双突破。
腾讯混元多模态模型
支持任意长宽比及最高7K分辨率图像的理解，通过MoE架构实现文本与视觉特征的深度对齐，可完成图像描述生成、视觉问答等复杂任务。

三、多模态与跨领域模型

字节跳动豆包大模型
采用稀疏MoE架构，以较小激活参数实现7倍于传统Dense模型的性能。支持文本、语音、图像多模态交互，日均处理4万亿Tokens，文生图功能可生成中国文化元素内容，推理成本低至0.0008元/千Tokens。
LIMoE
首个稀疏MoE多模态模型，结合CNN处理图像数据与Transformer处理语言数据，在图像描述生成和视觉问答任务中准确率提升10%以上。
腾讯混元TurboS
融合Mamba与Transformer的MoE模型，Mamba负责高效处理长序列（复杂度O(n)），Transformer进行深度语义理解。通过慢思考集成和代码沙箱反馈，显著提升数学推理和编程任务表现。

四、学术研究与新兴架构

Dynamic Language Group-Based MoE（DLG-MoE）
针对代码切换语音识别（CS-ASR）设计的分层路由模型。首先通过语言路由器显式建模语言属性，再通过无监督路由器协调专家协作，支持动态top-k推理和流式处理，在低资源语言任务中表现优异。
Mixer
用于动态系统重建的分层元学习MoE模型，采用k-means和最小二乘法优化门控更新，解决传统MoE在稀疏、松散相关数据集上的梯度冲突问题，适用于科学发现中的复杂系统建模。
DenseMixer
一种MoE后训练技术，通过直通估计器（STE）优化路由梯度计算，在Qwen 3-30B等模型上实现3.7%的性能提升，且不增加推理开销。

五、训练优化与工程实践

华为Pangu Ultra MoE的DSSN架构
通过深度缩放层归一化（DSSN）和TinyInit初始化，将梯度突刺率降低51%，支撑10+T tokens数据的长期稳定训练。
Meta Llama 4的动态参数激活
仅激活170亿参数（总参4000亿）即可实现单卡推理，结合FP8精度训练和蒸馏技术，将推理成本降至行业最低。
腾讯混元TurboS的奖励升级
引入规则评分、代码沙箱反馈及生成式奖励，提升STEM领域输出准确性，同时通过精细化指令调优增强模型对齐性。