从电商推荐系统实战看余弦距离：如何解决‘啤酒与尿布‘的相似度计算问题？

最新推荐文章于 2026-06-24 23:34:58 发布

原创

最新推荐文章于 2026-06-24 23:34:58 发布 · 865 阅读

标签

#电商推荐系统 #余弦距离 #相似度计算 #机器学习

收录于

电商推荐系统中的相似度计算：从啤酒尿布案例到余弦距离实战

啤酒和尿布——这个零售业经典案例揭示了商品关联分析的魔力。当超市发现这两种看似毫不相关的商品经常被同时购买时，他们调整了货架布局，销售额随之提升。这背后是一套精密的数学计算在支撑：如何量化商品之间的"相似性"或"关联度"。在电商平台的推荐系统中，这种计算直接决定了"猜你喜欢"的精准度。

1. 相似度计算的电商场景挑战

想象你运营着一个大型电商平台，每天有数百万用户浏览和购买商品。作为推荐系统工程师，你需要回答一个核心问题：当用户查看或购买某商品时，应该向他们推荐哪些其他商品？这个问题的答案很大程度上取决于我们如何定义和计算"商品相似度"。

传统思路可能会考虑商品的类别、品牌或价格等显性特征，但啤酒尿布案例告诉我们，真实的购买行为往往揭示出更复杂的关联模式。用户行为数据——浏览、点击、购买、评价等——才是商品关联的黄金指标。将这些行为转化为数学语言，我们通常构建用户-商品交互矩阵：

用户	商品A	商品B	商品C
用户1	1	0	3
用户2	0	2	1
用户3	4	1	0

在这个矩阵中，数值代表用户对商品的行为强度（如浏览次数、购买次数等）。要计算商品间的相似度，我们需要将每行视为商品的特征向量，然后定义合适的距离或相似度度量。

2. 欧式距离的局限与余弦距离的优势

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aa123

关注关注

18
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

机器学习中的数学——距离定义（十三）：杰卡德距离（Jaccard Distance）与相似系数在推荐系统与异常检测中的实战解析

weixin_30629653的博客

04-18

122

本文深入解析了机器学习中的杰卡德距离（Jaccard Distance）与相似系数，及其在推荐系统与异常检测中的实战应用。通过电商推荐和网络入侵检测等案例，展示了如何利用杰卡德距离高效处理集合数据，提升推荐准确率和异常检测效果。文章还提供了Python实现代码和工程优化技巧，帮助开发者快速掌握这一重要度量方法。

参与评论您还未登录，请先登录后发表或查看评论

Python实现推荐系统：协同过滤与内容过滤算法详解

weixin_33724059的博客

05-08

712

第六章：推荐算法

L18633789665的博客

01-20

1190

推荐系统和搜索系统和信息流2

cxzhq2002的杂记

02-24

567

产品逻辑之美信息架构：信息组织模式，让信息更好在产品和用户之间流动。先问：给谁看内容是什么什么情况下看。然后才是信息怎么组织和解决方案、然后才是可视化的方案。分类系统的难度（严格），标签对于信息组织的意义（松散） ...

推荐系统分析方法：关联、相似、预测三类核心路径拆解

weixin_30882895的博客

06-07

375

接地气的AI技术

weixin_34343308的博客

11-15

111

AlphaGo 的出现沸腾了整个技术圈，媒体的热情和投资的热衷让“人工智能”也就是 AI (Artificial Intelligence) 成了大众追捧的新名词。 "人工智能"是计算机科学的一个分支，目的是模拟人的一部分智能。AlphaGo 距离商业化应用还需要一些时间，不过不久前谷歌PR对外宣传已经在数据中心做一些资源调控，从而节省...

生成模型 Generative Modeling by Estimating Gradients of the Data Distribution

c_y_w_的博客

06-24

319

得分函数定义为对数概率密度关于输入的梯度：因为是一个常数（或者说它只和参数有关，和输入的数据无关）。当我们对数据求偏导（梯度）时，对的导数直接等于0为什么不直接叫梯度？继承自传统统计学的 Fisher Score 命名传统；同时也为了与深度学习中"更新网络权重的参数梯度"做严格的功能性区分——得分函数是输出给图像的"修图方向向量"，而参数梯度用于更新网络自身。传统似然模型└── 死磕绝对概率 → 遇到不可积分母 Z_θ → 走进死胡同 ❌│▼朴素得分匹配（2019）

机器学习周报五十

weixin_60864619的博客

06-21

222

本周复现上周提到的论文3DGA的实验，并且阅读了论文SplattingAvatar。通过SplattingAvatar，补充了对之前的改进的不足，法线插值和重心插值可以得到一个非线性连续场，解决3dga只有重心插值，在三角面片内只有线形关系的问题。在之前也尝试过建立一个非线性连续人体场，缺乏理论指导，SplattingAvatar提供了思路。

AI 学习之旅 · 阶段二：机器学习

最新发布

AI_Encyc的博客

06-24

421

小明背下了所有练习题的答案，考试遇到新题就不会了 →过拟合小红理解了解题思路，遇到新题也能做对 →泛化能力强✅。

多层神经网络_深度神经网络_机器学习_大模型由来_设计大模型_损失_梯度下降---AI大模型系统从零开始0016

添柴程序猿的专栏

06-22

124

摘要：神经网络通过多层结构逐层提取特征，最终输出归一化概率。深度神经网络通过增加层数提取更复杂特征，但需防止过拟合。模型训练关键在于参数优化：随机初始化参数后，通过计算误差并梯度下降迭代调整参数。误差函数的设计至关重要，直接影响模型性能。训练过程需要大量计算，逐步减小误差直至收敛。实际应用中需根据误差变化动态调整步长，以获得最优模型。整个训练过程体现了机器学习从数据中自动学习规律的核心思想。（149字）

LLM大语言模型运行模式_机器学习_总误差影响因素---AI大模型系统从零开始0017

添柴程序猿的专栏

06-22

103

摘要：本文讨论了机器学习模型误差计算与参数调整的关键概念。通过概率分析（如0.91正确率对应0.0943误差）指出需关注预测置信度而不仅是准确率。重点阐释了总误差计算方法（6万张图片误差累加）及梯度下降原理，包括如何通过ln函数优化误差计算、15万字符的多语言输出场景处理，以及1.8万亿参数模型的超大规模梯度下降实现。同时解释了非线性变换（如将像素值二值化）对模型拟合能力的提升作用，强调每个训练步骤都需全局调整所有参数，体现现代大模型训练的核心机制。（149字）

LSTM预判+速度门控双保险自愈

2301_77211362的博客

06-21

285

模块功能LSTM 预判预警分析历史通量/应力序列，预测未来失稳风险（如裂纹萌生）Speed-Gated 自愈实时监测通量变化率（速度），当超过阈值时自动增强修复强度双重触发机制满足任一条件（预判高风险或实际失稳）即启动自愈动态调节自愈强度随风险等级与速度同步变化。

机器学习持续交付（CD4ML）：自动化机器学习应用的端到端生命周期

QQQrui的专栏

06-22

344

在 Sculley 等人于 2015 年发表的一篇著名论文《机器学习系统中的隐藏技术债务》中，作者指出，在真实世界的机器学习系统中，真正的机器学习代码只占很小一部分；而支撑系统持续演进的基础设施和流程，则要庞大得多。论文还讨论了这类系统中可能累积的多种技术债务来源，包括数据依赖、模型复杂性、可复现性、测试、监控，以及对外部环境变化的响应能力等。传统软件系统同样会面临许多类似问题。持续交付正是通过自动化、质量保障和工程规范，建立一套可靠、可重复的软件发布流程，使软件能够安全地交付到生产环境。

机器学习特征工程：从原始数据到模型输入

谁念西风独自凉

06-23

240

数值特征：标准化/归一化是基础，对数变换处理偏态类别特征：低基数用 One-Hot，高基数用目标编码时间特征：周期编码（sin/cos）比直接用数值更好特征选择：先过滤（快速），再包装（精确），最后嵌入（模型驱动）Pipeline：把所有步骤封装为可复现的流水线。

2023-TPAMI《Large-Scale Clustering With Structured Optimal Bipartite Graph》

Christo的博客

06-21

给定样本集Xxii1nXxii1n、锚点集Yyjj1mYyjj1m,二部图BXYEBBXYEB的关联矩阵B∈Rn×mB∈Rn×m,其中bijb_{ij}bij表示样本与锚点的相似度。则二部图的邻接矩阵为W0BBT01W0BTB01对应的拉普拉斯矩阵为LWDW−WLWDW−W,其中DWDW为度矩阵,DW。

Machine Learning Specialization - Week 2, 21-30学习总结

Revivedsun的专栏

06-22

342

本文总结了机器学习课程第二周第2部分（第21-30课）的核心内容，重点讲解了多元线性回归及其优化方法。课程首先介绍了多特征线性回归的数学表达，说明了如何从单变量扩展到多变量场景。然后详细讲解了向量化技术的重要性，强调其能显著提升计算效率。针对多元回归的梯度下降算法，文章阐述了参数更新规则和向量化实现方法。特别强调了特征缩放的必要性，介绍了最大最小归一化和Z-score标准化两种预处理技术。最后讨论了判断梯度下降收敛的方法和学习率选择的关键要点，指出学习率过大或过小对模型训练的影响。这些概念为后续更复杂的机器

功率半导体器件对比文档：Si MOSFET / IGBT / SiC MOS / GaN HEMT

V_youhang的博客

06-17

475

本文系统对比了四种主流功率半导体器件（SiMOSFET、IGBT、SiCMOSFET、GaNHEMT）的技术特性与应用场景。从基础概念入手，分析了禁带宽度对器件性能的影响，区分了单极与双极器件导电机制差异。通过工作原理阐释和参数对比表，详细比较了四类器件在耐压范围、开关速度、导通特性等方面的差异。重点解析了各器件的优劣势：硅器件成熟低价但性能受限，SiC器件适合高压高温场景，GaN擅长高频应用但耐压不足。最后提出选型决策树，指出不同应用场景的最优选择，并展望了宽禁带半导体的发展趋势。

【机器学习】神经网络

Eddie_hyh的博客

06-15

554

2. 为什么神经网络需要多个输入？为了处理多个特征。例如预测房价：结合面积、卧室数、地段等多个因素，比只看面积准确得多。随机（通常是很小的随机数）。事先设定的超参数，不能直接知道设大还是设小合适。通常做法：从常见值开始试（如0.01或0.001），观察loss变化：有些问题太复杂，一层（输入→输出）学不会。每个隐藏层的神经元，把上一层的多个输出加权求和再激活 → 相当于把小特征拼成更大的特征。以识别手写数字为例：单个神经元识别的特征通常很难直接理解，往往需要多个神经元的输出组合，才能形成人类能理解的特征（

基于贝叶斯超参搜索、机器学习代理建模、多目标MOPSO寻优与SHAP分析的锂电池工艺参数协同优化，Python完整代码

机器学习之心的博客，关注并私信文章链接，获取对应文章源码和数据。

06-24

366

基于贝叶斯超参搜索、机器学习代理建模、多目标MOPSO寻优与SHAP分析的锂电池工艺参数协同优化，Python完整代码

【图像生成】GAN 原理 & pytorch代码实例（学习）

早起CaiCai的学习空间

06-22

227

这篇文章摘要如下：本文介绍了一种基于DNN的简单图像生成方法，用于生成MNIST数字图像。模型接收标签和随机噪声作为输入，通过嵌入层、全连接层和转置卷积层生成图像。文章详细阐述了模型架构设计思路，包括标签嵌入、潜在向量拼接等关键步骤，并提供了完整的PyTorch实现代码。模型训练采用MSE损失函数，通过可视化结果展示了生成效果。虽然DNN方法存在明显缺陷，但该实现为理解生成式模型提供了基础框架，演示了从条件输入到图像生成的基本流程。代码包含数据加载、网络定义、训练循环和结果可视化等完整模块。