HSTU生效的原因

门控注意力结构改进

在Q、K、V的基础上引入一个额外的门控矩阵U,用于对用户历史行为序列进行压缩和聚合,可以理解为底层行为的全局聚合,后续会对经过自注意力的序列特征进行信息的筛选和增强

不使用softmax激活函数,直接使用未归一化的原始注意力分数进行加权,能够显式保留用户兴趣的强度

取得效果的原因:

本次改进取得效果的关键原因在于其对序列特征进行了显式的交叉建模,作用形式与 DCN-v2 中的交叉层具有一致性:

在 DCN-v2 中,第$i+1$层的特征交叉通过如下公式进行:

$x_{i+1} = x_0 \odot (W \times x_i + b) + x_i $

其中,初始特征$x_0$与当前第$i+1$层经过线性变化的特征$(W \times x_i + b)$进行逐元素点乘,从而xxxx

类似地,在门控注意力结构中:

$Y = f_2(U \odot \text{LayerNorm}(O))+ X$

自注意力的输出O经过LayerNorm之后,与门控矩阵进行逐元素乘积,实现了xxx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值