Transformer模型就是一个巨大的统计库
如果embedding不变数据一定会收敛于某个分类中,也就是attion的参数会趋向于一个极限。
不受数据位置的影响,受关键连续数据的影响,可以捕获关键连续数据,这是提取了数据的特性。
所以transformer训练后只能做微调。
验证如下:
output,attn=Attention(E(X),W1)argmax(sin(attn),W2)⟶α
output,attn = Attention(E(X),W_1) \\
argmax(sin(attn), W_2) \longrightarrow \alpha
output,attn=Attention(E(X),W1)argmax(sin(attn),W2)⟶α
无论参数如何变化,只要输入不变都会趋向于一个区间,具体原理不知道
Transformer模型利用attention机制,不受数据位置影响,仅依赖关键连续数据,导致训练后需进行微调。模型参数在给定输入时趋于稳定区间,但具体原理未详。

1473

被折叠的 条评论
为什么被折叠?



