
Distillation based Multi-task Learning: A Candidate Generation Model for Improving Reading Duration
时长和点击是有依赖性的,点击un-clicked 可以为负样本,但是un-clicked 的样本在时长上如果当作0 处理的话,就和点击click-short duration 所一致了。为了避免train 阶段teacher model 受 student model 的影响,student model 的参数会与teacher model 参数分离,计算student 梯度的视后,会frozen teacher model。student 模型Loss(双塔)腾讯 2021 看点推荐。









