如何具体理解Self Attention中的Q、K、V以及计算过程

最新推荐文章于 2026-03-27 16:10:16 发布

原创

最新推荐文章于 2026-03-27 16:10:16 发布 · 5.3k 阅读

标签

#深度学习 #机器学习 #人工智能 #自然语言处理 #pytorch

#nlp

收录于

本文详细解释了SelfAttention机制中Q、K、V的作用，以及它们在BERT模型中的计算过程，包括线性变换、注意力权重的计算和Softmax的应用，强调了注意力机制的自注意力特性及其与位置无关的特点。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

如何具体理解Self Attention中的Q、K、V以及计算过程

一、计算过程理解
二、整体代码

一、计算过程理解

1、我们直接用torch实现一个 $S e l f A tt e n t i o n$ ：

首先定义三个线性变换矩阵， $q u ery, k ey, v a l u e$ ：

class BertSelfAttention(nn.Module):
    self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768