面试官提问:Transformer中,为什么Query (Q) 和 Key (K) 使用不同的权重矩阵生成?为什么不能使用同一个值进行自身的点乘? 参考回答: 1. 不同的权重矩阵提供更多的学习灵活性 在Transformer中,Query (Q)、Key (K) 和 Value (V) 都是通过输入嵌入层(通常是词向量或序列向量)经过各自的权重矩阵生成的。具体来说,输入经过三个线性变换生成 Q=XWQQ = XW_QQ=XWQ, K=XWKK = XW_KK=XWK<