【推荐算法】召回模型总结

最新推荐文章于 2026-05-20 05:33:41 发布

原创

最新推荐文章于 2026-05-20 05:33:41 发布 · 5.8k 阅读

标签

#推荐算法 #算法 #机器学习

文章目录

1、传统召回算法
2、向量化召回统一建模架构
3、Word2Vec：转为Item2Vec
4、Airbnb召回
5、阿里的EGES召回
6、FM：召回算法
7、主力召回：双塔模型

1、传统召回算法

详见链接：https://blog.csdn.net/m0_48086806/article/details/136914225

2、向量化召回统一建模架构

向量化召回的思想就是将召回问题建模为向量空间的紧邻搜索问题。
假设召回问题中包含两类实体Q和T

1）Q是用户，T是物料，为用户直接找喜欢的物料，就是user-to-item（U2I）召回
2）Q和T都是物料，为用户找与他喜欢物料相似的其他物料，就是item-to-item（I2I）召回
3）Q和T都是用户，先为当前用户查找与他相似的用户，再把相似用户喜欢的物料推荐给当前用户，就是user-to-user-item（U2U2I）召回

向量化召回的基本步骤如下：

1）训练一个模型M，将Q中的每个实例q和T中的每个实例t映射到同一个向量空间
2）将T中所有实例映射成向量，并存入向量数据库，建立索引
3）在线服务时，对于Q中的一个实例q，通过M映射为向量 $Emb_q$ 。再在向量数据库中，通过近似最近邻ANN搜索算法，查找与 $Emb_q$ 最近的K个T类的邻居向量作为召回结果

向量化召回是一类算法家族：例如Item2Vec、Youtube召回算法、Airbnb召回、FM召回、微软DSSM、双塔模型、百度孪生网络、阿里巴巴的EGES、腾讯的GraphTR等。
向量化召回的4个维度：

1）如何定义正样本，即哪些q和t在向量空间是相近的
2）如何定义负样本，即哪些q和t在向量空间是较远的
3）如何将q和t映射成Embedding，模型本身
4）如何定义优化目标，即损失函数

2.1、如何定义正样本

三种场景下的正样本定义方式：

I2I 召回。q和t都是物料。比如认为同一个用户在同一个会话(session，闻隔时间较短的用户行为序列)交互过(例如点击、观看、购买等)的两个物料，在向量空间是相近的。这体现的是两个物料的相似性。

U2I召回。q是用户，t是物料。一个用户与其交互过的物料在向量空间中应该是相近的。
这体现的是用户与物料的匹配性。

U2U 召回。q和t都是用户。比如使用孪生网络，q是用户一半的交互历史，t是同一用户另一半交互历史，二者在向量空间应该是相近的，这体现的是同一性。

2.2、重点关注负样本

首先，需要注意的一点是排序和召回所面临的候选集物料的分布是不同的

排序：所面对的候选物料是已经和用户兴趣比较匹配的优质集合。
召回：是将用户可能喜欢的和海量跟用户兴趣不相关的物料分隔开，所以，召回
所面对的候选物料集合可谓“鱼龙混杂，良莠不齐”。

所以，对喂入召回模型的样本的要求是，既要让模型见过最匹配的(user，item)组合，也要让模型见过最不靠谱的(user，item)组合，这样才能让模型达到“开眼界、见世面”的目的，从而在“大是大非”上不犯错误。
因此负样本不能只用曝光未点击的样本，要进行随机负采样，特别是在 U2I召回场景中，坚决不能(只)拿“曝光未点击”样本作为负样本。
随机负采样中的关键点如下：

1）推荐系统中不可避免的存在“二八定律”，即20%的热门物料占据了80%的曝光流量。那么U2I、I2I召回中，正样本的的物料以少数热门物料为主，可能带偏模型对所有用户只推荐热门物料。因此需要进行纠偏，例如在FM中，热门物料在正样本中要降采样

2）最简单的负采样方法是在所有物料组成的大库中进行随机采样，但代价太高，更是无法满足在线学习的实时性要求。因此业界也提出了许多近似的折中方案，例如双塔模型中的Batch内负采样和混合负采样

3）进一步考虑，负样本可以分为易分负样本（Easy Negative）和难分负样本（Hard Negative），例如q是一只狗的图片时，负样本如果是猫、大象、乌鸦、海豚，与q相差很大，属于易分负样本；负样本如果是狼、狐狸，属于难分负样本。

因此，难分负样本可以作为易分负样本的补充，在数量上，负样本还是应该以 EasyNegative为主，Facebook的经验是将比例维持在 Easy:Hard=100:1。毕竟在线召回时，候选集中的绝大多数物料都是与用户毫不相关的，保证 Easy Negative 的数量优势才能保持召回模型的基本精度。

总之，如果说排序是特征的艺术,那么召回就是样本的艺术,特别是负样本的艺术。做召回,“负样本为王”,负样本的选择对于算法成败是决定性的:选对了，模型基本合格;选错了，之后的特征工程、模型设计、推理优化都是南辕北辙，平添无用功罢了。

2.3、召回生成Embedding：要求用户、物料解耦

最重要的一点：排序鼓励交叉，召回要求解耦
排序由于其候选集规模比较小，因此可以鼓励交叉，而召回面对的候选集规模太大，如果每个用户与每个候选物料都进行交叉，其实时性要求很难保证
所以，召回必须解耦，隔离用户信息与物料信息。

特征策略上，召回无法使用用户与物料的交叉统计特征(如用户标签与物料标签的重合度)

模型结构上，召回必须各自处理用户特征和物料特征。用户子模型只利用用户特征，生成用户向量 $Emb_{user}$ 。物料子模型只利用物料特征，生成物料向量 $Emb_{item}$ 。只允许最后计算 $Emb_{user}\cdot Emb_{item}$ 或 $cosine(Emb_{user},Emb_{item})$ 时，才产生用户信息与物料信息的唯一一次交叉

通过上述的解耦方式并结合以下的操作，可以实现实时性

1）离线时，提前计算好，生成百万、千万级的物料向量(如 $Emb_{item}$ )，灌入Faiss 并建立好索引
2）在线时，独立生成用户向量(如 $Emb_{user}$ )，在Faiss中利用近似最近邻(ANN)搜索算法快速搜索出与 $Emb_{user}$ 接近的 $Emb_{item}$

2.4、如何定义优化目标

在定义损失函数上，精排要求的是预测值的“绝对准确性”，一般使用二分类交叉熵损失；
而召回的候选集非常庞大，主要考虑的是排序的相对准确性，因为只有正样本来自用户真实反馈，负样本往往未曾曝光过，所以召回没要求预测值绝对准确
召回常用的损失函数：1）多分类的Softmax Loss，只要求正样本的概率值预测得越高越好；2）Learning-To-Rank思想的损失

2.4.1、Softmax Loss、NCE Loss、NEG Loss

Softmax Loss如下：
NCE Loss中，用 $G (u, t)$ 表示该样本 $(u, t)$ 是正样本的Logit，公式如下：
$u\cdot t - logQ(t|u)$

Q(t|u)表示来自噪声的概率，可以理解为用户不喜欢但随手点击过的概率。考虑推荐系统的实际情况，我们不难得出“Q(t|u)应该与物料t的热度正相关”的结论。t越热门，它被展示给用户的频率越高，被用户随手点击的概率也就越高。

这里的重点在于理解修正项-logQ(t|u)的作用：为了防止热门物料被过度惩罚。可以这样来理解，在负采样的时候，物料的热度越高，它被采样为负样本的概率也就越高。负样本主要由热门物料组成，实际上是对热门物料进行了过度打压，可能会导致推荐结果过于小众。为了补偿被过度打压的热门物料，要求 $u\cdot t$ 不能只是一般大，而必须在减去log

最低0.47元/天解锁文章