🔍 Transformer 是自然语言处理(NLP)的“革命性”模型,彻底取代了RNN/CNN的序列建模方式。其核心在于Self-Attention机制和位置编码设计。本文用最直观的方式带你彻底搞懂这两大核心原理!
📌 Self-Attention:为什么能“看见全局”?
🌟 核心思想
Self-Attention(自注意力)让每个词都能直接与序列中所有其他词交互,捕捉长距离依赖关系。与RNN的“顺序处理”不同,Self-Attention通过矩阵并行计算实现高效全局建模。
🔥 计算步骤
-
输入向量:将输入词嵌入(Embedding)为向量
(n为序列长度,d为维度)。 -
生成Q/K/V:通过线性变换得到Query、Key、Value矩阵:

-
计算注意力分数:


2347

被折叠的 条评论
为什么被折叠?



