门控注意力结构改进
在Q、K、V的基础上引入一个额外的门控矩阵U,用于对用户历史行为序列进行压缩和聚合,可以理解为底层行为的全局聚合,后续会对经过自注意力的序列特征进行信息的筛选和增强
不使用softmax激活函数,直接使用未归一化的原始注意力分数进行加权,能够显式保留用户兴趣的强度
取得效果的原因:
本次改进取得效果的关键原因在于其对序列特征进行了显式的交叉建模,作用形式与 DCN-v2 中的交叉层具有一致性:
在 DCN-v2 中,第$i+1$层的特征交叉通过如下公式进行:
$x_{i+1} = x_0 \odot (W \times x_i + b) + x_i $
其中,初始特征$x_0$与当前第$i+1$层经过线性变化的特征$(W \times x_i + b)$进行逐元素点乘,从而xxxx
类似地,在门控注意力结构中:
$Y = f_2(U \odot \text{LayerNorm}(O))+ X$
自注意力的输出O经过LayerNorm之后,与门控矩阵进行逐元素乘积,实现了xxx

4544

被折叠的 条评论
为什么被折叠?



