基于模型的推荐系统

4. 隐语义模型

4.1 矩阵分解

评分数据是高度相关的,数据的冗余可以让我们用低秩矩阵来近似原矩阵。隐语义模型目前是the state of art。
Um×kU为m×k的矩阵,Vn×kV为n×k的矩阵,他两的乘积用以估计评分矩阵

RUVT(1)(1)R≈UVT

通过优化目标函数来求解U、V,即最小化残差矩阵(2)(2)
||RUVT||2(2)(2)||R−UVT||2

矩阵分解讲原始的空间降维到k维,可以理解为:
rijuivj=s=1kuisvjs=s=1k(Affinity of user to concepet s)×(Affinity of item to concepet s)(3)rij≈uivj=∑s=1kuis⋅vjs(3)=∑s=1k(Affinity of user to concepet s)×(Affinity of item to concepet s)

4.1.1batch update

目标函数

minJ=12||RUVT||2,(5)(5)minJ=12||R−UVT||2,

如上目标函数针对的是矩阵中木有缺失项,若有缺失项则不再适用
minJ=12i,jSe2ij=12i,jS(ri,js=1kuisvjs)2(6)(6)minJ=12∑i,j∈Seij2=12∑i,j∈S(ri,j−∑s=1kuis⋅vjs)2

公式66只针对观测到的评分部分计算损失,梯度计算如下:
Juiq=j:(i,j)S(ri,js=1kuisvjs)(vjq)(7)=j:(i,j)Seij(vjq)

Jvjq=j:(i,j)S(ri,js=1kuisvjs)(uiq)=j:(i,j)Seij(uiq)(8)∂J∂vjq=∑j:(i,j)∈S(ri,j−∑s=1kuis⋅vjs)(−uiq)(8)=∑j:(i,j)∈Seij(−uiq)

令E为残差矩阵,可以使用如下公式计算U,V
E=RUVT(9)(9)E=R−UVT

UU+αEV(10)(10)U←U+αEV

VV+αETU(11)(11)V←V+αETU

4..1.2 SGD

随机选择评分,rijrij

uiquiqα[Juiq]=uiq+αeijvjq(12)(12)uiq←uiq−α[∂J∂uiq]=uiq+α∗eij∗vjq

vjqvjqα[Jviq]=vjq+αeijuiq(13)(13)vjq←vjq−α[∂J∂viq]=vjq+α∗eij∗uiq

可以表示为向量形式:
uiui+αeijvj(14)(14)ui←ui+α∗eij∗vj

vjvj+αeijui(15)(15)vj←vj+α∗eij∗ui

随机梯度下降收敛的速度更快,而批更新策略更平滑,这是由于批更新使用了全部的数据来进行梯度计算,而随机梯度下降每次只使用一个评分,带来了噪声。
随机梯度下降在计算是瓶颈,数据量很大的情况下。

4.1.3 正则

目标函数:

minJ=12||RUVT||2+λ2||U||2+λ2||V||2(16)(16)minJ=12||R−UVT||2+λ2||U||2+λ2||V||2

Juiq=j:(i,j)S(ri,js=1kuisvjs)(vjq)+λuiq=j:(i,j)Seij(vjq)+λuiq(17)∂J∂uiq=∑j:(i,j)∈S(ri,j−∑s=1kuis⋅vjs)(−vjq)+λuiq(17)=∑j:(i,j)∈Seij(−vjq)+λuiq

Jvjq=j:(i,j)S(ri,js=1kuisvjs)(uiq)+λvjq=j:(i,j)Seij(uiq)+λvjq(18)∂J∂vjq=∑j:(i,j)∈S(ri,j−∑s=1kuis⋅vjs)(−uiq)+λvjq(18)=∑j:(i,j)∈Seij(−uiq)+λvjq

带有正则项的批更新:
UU(1αλ)+αEV(19)(19)U←U(1−αλ)+αEV

VV(1αλ)+αETU(20)(20)V←V(1−αλ)+αETU

带有正则的随机梯度更新:
uiui+α(eijvjλui)(21)(21)ui←ui+α(eij∗vj−λui)

vjvj+α(eijujλvj)vj←vj+α(eij∗uj−λvj)

4.1.4 ALS + 坐标下降

ALS

  • 固定V,把V当作常量,更新U
  • 固定U,把U当作常量,更新V
  • 与随机梯度相比,效率不够高,尤其是隐反馈问题上,稳定性高

坐标下降

  • 固定所有方向的向量,只留下一部分更新

4.1.5 偏置

r^ij=oi+pj+s=1kuisvjs(22)(22)r^ij=oi+pj+∑s=1kuis∗vjs

eij=rijoipjs=1kuisvjs(23)(23)eij=rij−oi−pj−∑s=1kuis∗vjs

将其加入U,V矩阵中
ui,k+1=oi(24)(24)ui,k+1=oi

ui,k+2=1(25)(25)ui,k+2=1

vi,k+1=1(26)(26)vi,k+1=1

vi,k+1=pj(27)(27)vi,k+1=pj

目标函数:
MinimizeJ=12((i,j)S(rijs=1k+2uisvjs)2+12s=1k+2(i=1mu2is+i=1nv2js)s.t.(k+2)th column of U is 1(k+1)th column of V is 1(28)(28)MinimizeJ=12(∑(i,j)∈S(rij−∑s=1k+2uis∗vjs)2+12∑s=1k+2(∑i=1muis2+∑i=1nvjs2)s.t.(k+2)th column of U is 1(k+1)th column of V is 1

4.1.6 结合隐反馈

  • 对于评分矩阵RR,将其转化为隐反馈矩阵F,m×n,非零的部分设为1,然后对每行进行归一化,使得他们的平方和为1
  • 矩阵Y,n×kY,n×k为隐物品因子矩阵,用户隐因子可以表示为FYFY,用户的倾向可以用其行为的线性组合来表示(已评分物品隐因子的线性组合)
  • R[FY]VTR≈[FY]VT,其中YY为隐反馈物品隐因子矩阵,而V为显反馈物品隐因子矩阵
  • 这种表示往往能带来更优秀的性能,这种方法将用户隐因子表示为物品隐因子的线性组合降低了用户因子的冗余
  • 用户如果有相似的评分物品,不管他们的评分分数,他们的用户因子应该相似
  • 这种方法可以结合其他的独立的隐因子矩阵,不需要正则化项
  • 降低的维度,nmn≪m
  • 可解释性 FY]VTFY]VT可以写成F[YVT]F[YVT],可以视为物品物品预测矩阵,[YVT]ij[YVT]ij表明了物品i的评分如何影响物品j,而矩阵F表明了m×nm×n用户到物品的系数
  • SVD++
    • 上述用户因子不会受用户评分的影响,只要评分过的物品相同,他们的隐因子就相同
    • R[U+FY]VTR≈[U+FY]VT

4.2 奇异值分解

4.2.1 SVD

RQkΣkPTk(1)(1)R≈QkΣkPkT
  • Qk,Σk,PTkQk,Σk,PkT分别为m×k,k×k,n×km×k,k×k,与n×k的矩阵,QkQkPkPk分别包含了RRTRRTRTRRTR最大的k的个特征向量,而ΣkΣk为k个最大特征向量对应特征值的正平方根
  • RRTRRTRTRRTR的非零特征值是相同的,他们有着不同数目的零特征值,mnm≠n
  • PkPk包含了RTRRTR最大的k个特征值对应的特征向量,特征向量蕴含了物品之间在评分方向上的联系,因此它们可以起到降维的作用
  • QkΣkQkΣk为原矩阵转化之后的形式(m×km×k),把PTkPkT看做基,那么QkΣkQkΣk可以看做用户评分在隐向量上的一维表示
  • 几何意义:将一个向量从正交基空间PkPk旋转到QkQk,并按ΣkΣk方向在各方向进行缩放
  • SVD与MF对比
    • U=QkΣkU=QkΣk
    • V=PkV=Pk
    • MinimizeJ=12||RUVT||2s.t.columns of U are orthogonal, columns of V are orthogonalMinimizeJ=12||R−UVT||2s.t.columns of U are orthogonal, columns of V are orthogonal
    • 在无缺失的矩阵上,SVD与unconstrained MF最优解是一致的,而在缺失的问题上,unconstrained MF在已观测的评分性能更优,在为观测的二者谁更优秀无法评价

4.2.2 简单迭代


    • mean center,对于每行的均值排序用于之后重构矩阵 RRcR→Rc
    • RcRc缺失的部分设为0,(等价于将缺失的部分设置为用户平均评分)
    • RcRc进行分解,Rc=QkΣkPTkRc=QkΣkPkT,则U=QkΣk,V=PkU=QkΣk,V=Pk
    • r^ij=uivj+μir^ij=uivj+μi
    • 这一方法的缺点主要是,将缺失部分替换为均值会带来一定的偏差

    • 初始化第i行缺失的部分为μiμi来初始化RfRf
    • 对于RkRk进行奇异值分解
    • 调整缺失部分为QkΣkPTkQkΣkPkT重新迭代
    • 这种方法在缺失值很多的情况下会陷入局部最优点

4.2.3 基于优化的方法

基于迭代的方法代价十分高,因为需要完全给定矩阵的每个位置的值,更有效的方法是在优化中引入正交性

MinimizeJ=12(i,j)S(rijs=1kuisvjs)2+λ12i=1ms=1ku2is+λ22j=1ns=1kv2jss.t.columns of U are orthogonal, columns of V are orthogonalcolumns of V are orthogonal, columns of V are orthogonal(2)MinimizeJ=12∑(i,j)∈S(rij−∑s=1kuis⋅vjs)2+λ12∑i=1m∑s=1kuis2+λ22∑j=1n∑s=1kvjs2s.t.columns of U are orthogonal, columns of V are orthogonal(2)columns of V are orthogonal, columns of V are orthogonal

可以使用投影梯度下降(projected gradient descent)的方法来优化

4.3 非负矩阵分解

这一方法具有较高的可解释性,应用于非负评分中,即没有负向情感的评分矩阵

MinimizeJ=12||RUVT||2s.t.U0,V0(1)(1)MinimizeJ=12||R−UVT||2s.t.U≥0,V≥0

uij(RV)ijuij(UVTV)ij+η(2)(2)uij←(RV)ijuij(UVTV)ij+η

vij(RTU)ijvij(VUTU)ij+η(3)(3)vij←(RTU)ijvij(VUTU)ij+η
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值