来自deepseek的自我介绍

DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日发布的混合专家(MoE)语言模型。以下是关于它的详细介绍:

### 技术架构

- **基本架构**:基于Transformer框架搭建,采用多头潜在注意力(MLA)和DeepSeek MoE技术。MLA对注意力的键和值进行低秩联合压缩,减少键值缓存,对注意力查询也进行低秩压缩,降低训练时的激活内存。DeepSeek MoE用在Feed-Forward Networks(FFNs)上,采用更细粒度的专家,设置共享专家,根据不同的专家和输入进行合理的加权计算。

- **负载均衡策略**:采用无辅助损失的负载均衡策略,给每个专家加偏置项,根据专家负载情况实时调整任务分配,还添加互补的序列级平衡损失,防止单个序列内出现极端不平衡。

- **多令牌预测**:具有多令牌预测(MTP)技能,用d个顺序模块来预测d个额外的词,预测时保持完整的因果链,训练时计算MTP损失,推理时可用于投机解码以提高生成速度。

### 基础设施

- **计算集群**:训练集群配备2048块NVIDIA H800 GPU,每个节点有8块GPU,通过NVLink和NVSwitch连接,不同节点之间通过Infiniband(IB)互连,实现高效通信。

- **训练框架**:采用16路管道并行(PP)、64路专家并行(EP)和Zero-1数据并行(DP)。通过Dual Pipe算法解决传统PP方法的“流水线气泡”问题,EP跨度为8个节点并开发了高效的跨节点全对全通信内核,充分利用IB和NVLink的带宽。

- **FP8训练**:引入FP8混合精度框架,在保证计算精度的同时,大幅度地降低了内存占用与计算成本,通过优化模型的算法与数据表示方式,在训练中以更低的精度运算而不牺牲绝对性能。

### 模型参数 拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。

### 性能优势

- **知识类任务**:在MMLU、GPQA等任务中,表现接近Claude-3.5-Sonnet-1022。在中文知识问答如C-SimpleQA上,表现优于GPT-4o。

- **长文本处理**:在DROP、LongBench v2等测评中,平均表现超越其他模型,也超越了GPT-4o。

- **代码场景**:在算法类代码场景如Codeforces中,远远领先于其他开源模型,领先GPT-4o,但在工程类代码场景中稍逊一筹。

- **数学能力**:在美国数学竞赛(AIME 2024)和中国高中数学联赛(CNMO 2024)中,表现超过所有开源和闭源模型。

- **生成速度**:生成速度相比V2.5模型实现了3倍的提升,达到每秒吞吐量60 token。

### 训练成本 全部训练成本总计为557.6万美元,完整训练消耗了278.8万个GPU小时,加上用于扩展上下文长度所需的11.9万个GPU小时和5000个GPU小时的后训练,成本远低于通常用于预训练大语言模型的上亿美元成本。

### 应用场景 包括聊天和编码场景、多语言自动翻译、智能客服领域的多轮对话和自然续写、图像生成和AI绘画等,还能作为学习辅助工具,帮助用户学习新知识,提供教育资源推荐、学习计划制定等服务,也可协助管理日程、提醒重要事项、提供旅行建议等。

### 价格 2024年12月27日起至2025年2月8日,DeepSeek-V3的API服务价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。之后恢复为每百万输入tokens为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens价格为8元。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小赖同学啊

感谢上帝的投喂

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值