【读书笔记-＞推荐系统】02-03 逻辑回归

原创已于 2022-03-16 20:38:44 修改 · 1.1k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#推荐系统 #逻辑回归

于 2021-12-27 10:15:50 首次发布

《深度学习推荐系统》专栏收录该内容

9 篇文章

订阅专栏

本文介绍了逻辑回归在推荐系统中的应用，如何通过融合用户、物品和上下文特征预测点击率，包括其数学形式、训练方法和优势。重点讲解了模型的推断过程及逻辑回归在CTR预估中的角色，同时探讨了其局限性和后续的发展趋势。

02-03 逻辑回归

思维导图纲要

在这里插入图片描述

相比协同过滤仅利用用户与物品的相互行为信息进行推荐，逻辑回归模型能够综合利用用户、物品、上下文等多种不同的特征，生成较为“全面”的推荐结果。另外，逻辑回归的另一种表现形式“感知机”作为神经网络中最基础的单一神经元，是深度学习的基础性结构。

因此，能够进行多特征融合的逻辑回归模型成了独立于协同过滤的推荐模型发展的另一个主要方向。

相比协同过滤和矩阵分解利用用户和物品的“相似度”进行推荐，逻辑回归将推荐问题看成一个分类问题，通过预测正样本的概率对物品进行排序。这里的正样本可以是用户“点击”了某商品，也可以是用户“观看”了某视频，均是推荐系统希望用户产生的“正反馈”行为。（个人理解为逻辑回归旨在预测用户产生“正反馈”行为的概率）

因此，逻辑回归模型将推荐问题转换成了一个点击率（Click Through Rate，CTR ) 预估问题。

基于逻辑回归模型的推荐流程

基于逻辑回归的推荐过程如下。
( 1 )将用户年龄、性别（用户特征）、物品属性、物品描述（物品特征）、当前时间、当前地点（上下文特征）等特征转换成数值型特征向量。
( 2 ) 确定逻辑回归模型的优化目标（以优化“点击率” 为例），利用已有样本数据对逻辑回归模型进行训练，确定逻辑回归模型的内部参数。
( 3 ) 在模型服务阶段，将特征向量输人逻辑回归模型，经过逻辑回归模型的推断，得到用户“点击”（这里用点击作为推荐系统正反馈行为的例子）物品的概率。（逻辑回归给出用户产生“正反馈”行为的概率）
( 4 ) 利用“点击” 概率对所有候选物品进行排序，得到推荐列表。

基于逻辑回归的推荐过程的重点在于，利用样本的特征向量进行模型训练和在线推断。下面着重介绍逻辑回归模型的数学形式、推断过程和训练方法。

逻辑回归模型的数学形式

在这里插入图片描述

如图 2-7 所示，逻辑回归模型的推断过程可以分为如下几步:

将特征向量 $\pmb{x} = (x_1, x_2, ..., x_n)$ 作为模型的输入。（也就是上面的用户特征、物品特征、上下文特征）
通过为个特征赋予相应的权重 $w_1,w_2,...,w_{n+1})$ ，来表示各特征的重要性差异，将各特征进行加权求和，得到 $\pmb{x}^T \pmb{w}$ 。（最开始的权重可以赋随机值，后面会更新权重的；注意这里x和w都是矩阵的形式，^T表示转置）
将 $\pmb{x}^T \pmb{w}$ 输入sigmoid函数，使之映射到0～1的区间，得到最终的“点击率”。

sigmoid函数的公式和图像如图所示。（具体意思为特征向量与权重乘积之和 $\pmb{x}^T \pmb{w}$ 带入f(z)公式中，最后结果为(0,1)的范围，刚刚好是“点击”也就是“正反馈”行为的概率）

在这里插入图片描述

综上，逻辑回归模型整个推断过程的数学形式如（式 2-13 ) 所示。（个人理解为 $w x + b$ 就是 $\pmb{x}^T \pmb{w}$ 的值形式）

在这里插入图片描述

对于标准的逻辑回归模型来说，要确定的参数就是特征向量相应的权重向量w , 下面介绍逻辑回归模型的权重向量w的训练方法。（如果权重向量w训练好了，那么预测能力会更准）

逻辑回归模型的训练方法

逻辑回归模型常用的训练方法是梯度下降法、牛顿法、拟牛顿法等，其中梯度下降法是应用最广泛的训练方法，也是学习深度学习各种训练方法的基础。

有关梯度下降法的内容，大家可以搜一搜文献，简单的说法就是利用每个权重w的偏导更新w向y减小的方向前进，寻找一个局部最低点。

在这里插入图片描述

针对逻辑回归的梯度下降法，文末给出了一个参考文献，可以帮助理解

逻辑回归模型的优势

1 数学含义上的支撑

逻辑回归作为广义线性模型的一种，它的假设是因变量 y 服从伯努利分布（0-1分布）。那么在 CTR 预估这个问题上，“点击” 事件是否发生就是模型的因变量而用户是否点击广告是一个经典的掷偏心硬币问题（点击/不点击的概率）。因此，CTR 模型的因变量显然应该服从伯努利分布。所以，采用逻辑回归作为 CTR 模型是符合 “点击” 这一事件的物理意义的。

2 可解释性强

使用各特征的加权和是为了综合不同特征对 CTR 的影响，而不同特征的重要程度不一样，所以为不同特征指定不同的权重，代表不同特征的重要程度。（权重 = 重要性）最后，通过 sigmoid 函数，使其值能够映射到 0~1区间，正好符合CTR的物理意义。（sigmoid使和映射成概率）

模型具有极强的可解释性。算法工程师可以轻易地根据权重的不同解释哪些特征比较重要，在CTR 模型的预测有偏差时定位是哪些因素影响了最后的结果。在与负责运营、产品的同事合作时，也便于给出可解释的原因，有效降低沟通成本。

3 工程化的需要

逻辑回归模型易于并行化、模型简单、训练开销小。