机器学习实战学习笔记（十）使用Apriori算法进行关联分析

最新推荐文章于 2024-04-06 10:03:39 发布

原创

最新推荐文章于 2024-04-06 10:03:39 发布 · 1k 阅读

标签

#Apriori #机器学习

本文介绍了关联分析的基础知识，包括频繁项集和关联规则。详细讲解了Apriori算法的原理，如何生成候选项集和组织完整的算法流程。通过实例展示了如何从频繁项集中挖掘关联关系，并应用于发现毒蘑菇的特征。最后总结了关联分析在大数据挖掘中的重要性和Apriori算法的效率问题。

PS：该系列数据都可以在图灵社区（点击此链接）中随书下载中下载（如下）
在这里插入图片描述
从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis） 或者关联规则学习（association rule learning）。

1 关联分析

                                               Apriori算法
优点：易编码实现。
缺点：在大数据集上可能较慢。
使用数据类型：数值型或者标称型数据。

关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式：频繁项集或者关联关系。频繁项集（frequent item sets） 是经常出现在一块的物品的集合，关联规则（association rules） 暗示两种物品之间可能存在很强的关系。

交易号码	商品
0	豆奶，莴苣
1	莴苣，尿布，葡萄酒，甜菜
2	豆奶，尿布，葡萄酒，橙汁
3	莴苣，豆奶，尿布，葡萄酒
4	莴苣，豆奶，尿布，橙汁

一个项集的支持度（support） 被定义为数据集中包含该项集的记录所占的比例。如，{豆奶}的支持度为4/5，{豆奶，尿布}的支持度为3/5。
可信度或置信度（confidence） 是针对一条诸如{尿布}→{葡萄酒}的关联关系定义的。这条规则的可信度被定义为 $\frac{支持度(\{尿布，葡萄酒\})}{支持度(\{尿布\})}=\frac{3/5}{4/5}=\frac{3}{4}=0.75$
这意味着对于包含“尿布”的所有记录，我们的规则对其中75%的记录都适用。