1. DeepSeek-V3.2架构解析:稀疏注意力与强化学习的协同创新
大型语言模型(LLM)的核心技术之一是注意力机制,它通过计算输入序列中各个位置的相关性来捕捉长距离依赖关系。传统注意力机制的计算复杂度为O(n²),在处理长序列时面临显著的计算效率瓶颈。DeepSeek-V3.2创新性地提出了DeepSeek稀疏注意力(DSA)机制,通过闪电索引器和细粒度令牌选择,将复杂度降低至O(nk),同时保持模型性能。
1.1 DeepSeek稀疏注意力(DSA)机制详解
DSA的核心创新在于将传统注意力计算分解为两个阶段:快速筛选和精确计算。这种设计灵感来源于人类阅读时的注意力分配模式——我们不会对文本中的每个单词都投入同等注意力,而是先快速扫描确定关键信息点,再集中精力处理这些重点内容。
闪电索引器(Lightning Indexer)是DSA的第一阶段组件,它采用轻量级计算快速评估所有token的相关性。具体实现上,它使用多头部结构(典型配置为4-8个头)和ReLU激活函数,这种设计在保持足够表达能力的同时最大化计算效率。索引器输出的评分公式为:
I_t,s = Σ_{j=1}^{H_I} w_{t,j}^I · ReLU(q_{t,j}^I · k_s^I)
其中H_I表示索引器头数,q和k分别代表查询和键的投影,w为可学习的权重参数。值得注意的是,索引器可以采用FP8低精度计算,这使得其虽然保持O(n²)复杂度,但实际计算开销远低于传统注意力。
细粒度令牌选择机制则根据索引器评分进行Top-k筛选(典型k值为2048)。这种动态选择相比静态的窗口注意力或块稀疏注意力具有显著优势:它能够根据具体内容动态调整注意力范围,避免固定模式导致的关键信息丢失。实验表明,在128K长度的文本中,仅选择约1.6%的token参与计算即可保持模型性能。
1.2 基于MLA的DSA实现方案
为保持与先前版本DeepSeek-V3.1的兼容性,DSA基于多查询注意力(MQA)模式的混合注意力(MLA)架构实现。这种设计带来三个关键技术优势:


504

被折叠的 条评论
为什么被折叠?



