来自deepseek的自我介绍-CSDN博客

DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日发布的混合专家（MoE）语言模型。以下是关于它的详细介绍：

### 技术架构

- **基本架构**：基于Transformer框架搭建，采用多头潜在注意力（MLA）和DeepSeek MoE技术。MLA对注意力的键和值进行低秩联合压缩，减少键值缓存，对注意力查询也进行低秩压缩，降低训练时的激活内存。DeepSeek MoE用在Feed-Forward Networks（FFNs）上，采用更细粒度的专家，设置共享专家，根据不同的专家和输入进行合理的加权计算。

- **负载均衡策略**：采用无辅助损失的负载均衡策略，给每个专家加偏置项，根据专家负载情况实时调整任务分配，还添加互补的序列级平衡损失，防止单个序列内出现极端不平衡。

- **多令牌预测**：具有多令牌预测（MTP）技能，用d个顺序模块来预测d个额外的词，预测时保持完整的因果链，训练时计算MTP损失，推理时可用于投机解码以提高生成速度。

### 基础设施

- **计算集群**：训练集群配备2048块NVIDIA H800 GPU，每个节点有8块GPU，通过NVLink和NVSwitch连接，不同节点之间通过Infiniband（IB）互连，实现高效通信。

- **训练框架**：采用16路管道并行（PP）、64路专家并行（EP）和Zero-1数据并行（DP）。通过Dual Pipe算法解决传统PP方法的“流水线气泡”问题，EP跨度为8个节点并开发了高效的跨节点全对全通信内核，充分利用IB和NVLink的带宽。

- **FP8训练**：引入FP8混合精度框架，在保证计算精度的同时，大幅度地降低了内存占用与计算成本，通过优化模型的算法与数据表示方式，在训练中以更低的精度运算而不牺牲绝对性能。

### 模型参数拥有6710亿参数，其中激活参数为370亿，在14.8万亿token上进行了预训练。

### 性能优势

- **知识类任务**：在MMLU、GPQA等任务中，表现接近Claude-3.5-Sonnet-1022。在中文知识问答如C-SimpleQA上，表现优于GPT-4o。

- **长文本处理**：在DROP、LongBench v2等测评中，平均表现超越其他模型，也超越了GPT-4o。

- **代码场景**：在算法类代码场景如Codeforces中，远远领先于其他开源模型，领先GPT-4o，但在工程类代码场景中稍逊一筹。

- **数学能力**：在美国数学竞赛（AIME 2024）和中国高中数学联赛（CNMO 2024）中，表现超过所有开源和闭源模型。

- **生成速度**：生成速度相比V2.5模型实现了3倍的提升，达到每秒吞吐量60 token。

### 训练成本全部训练成本总计为557.6万美元，完整训练消耗了278.8万个GPU小时，加上用于扩展上下文长度所需的11.9万个GPU小时和5000个GPU小时的后训练，成本远低于通常用于预训练大语言模型的上亿美元成本。

### 应用场景包括聊天和编码场景、多语言自动翻译、智能客服领域的多轮对话和自然续写、图像生成和AI绘画等，还能作为学习辅助工具，帮助用户学习新知识，提供教育资源推荐、学习计划制定等服务，也可协助管理日程、提醒重要事项、提供旅行建议等。

### 价格 2024年12月27日起至2025年2月8日，DeepSeek-V3的API服务价格为每百万输入tokens 0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens 2元。之后恢复为每百万输入tokens为0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens价格为8元。