PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)

从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis) 或者关联规则学习(association rule learning)。
1 关联分析
Apriori算法
优点:易编码实现。
缺点:在大数据集上可能较慢。
使用数据类型:数值型或者标称型数据。
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式:频繁项集或者关联关系。频繁项集(frequent item sets) 是经常出现在一块的物品的集合,关联规则(association rules) 暗示两种物品之间可能存在很强的关系。
| 交易号码 | 商品 |
|---|---|
| 0 | 豆奶,莴苣 |
| 1 | 莴苣,尿布,葡萄酒,甜菜 |
| 2 | 豆奶,尿布,葡萄酒,橙汁 |
| 3 | 莴苣,豆奶,尿布,葡萄酒 |
| 4 | 莴苣,豆奶,尿布,橙汁 |
一个项集的支持度(support) 被定义为数据集中包含该项集的记录所占的比例。如,{豆奶}的支持度为4/5,{豆奶,尿布}的支持度为3/5。
可信度或置信度(confidence) 是针对一条诸如{尿布}→{葡萄酒}的关联关系定义的。这条规则的可信度被定义为 支 持 度 ( { 尿 布 , 葡 萄 酒 } ) 支 持 度 ( { 尿 布 } ) = 3 / 5 4 / 5 = 3 4 = 0.75 \frac{支持度(\{尿布,葡萄酒\})}{支持度(\{尿布\})}=\frac{3/5}{4/5}=\frac{3}{4}=0.75 支持度({
尿布})支持度({
尿布,葡萄酒})=4/53/5=43=0.75
这意味着对于包含“尿布”的所有记录,我们的规则对其中75%的记录都适用。
2 Apriori原理
使用编号来代表物品,一共有四种商品。

四种商品需要遍历15次,N中商品需要遍历 2 N − 1 2^N-1 2

本文介绍了关联分析的基础知识,包括频繁项集和关联规则。详细讲解了Apriori算法的原理,如何生成候选项集和组织完整的算法流程。通过实例展示了如何从频繁项集中挖掘关联关系,并应用于发现毒蘑菇的特征。最后总结了关联分析在大数据挖掘中的重要性和Apriori算法的效率问题。
使用Apriori算法进行关联分析&spm=1001.2101.3001.5002&articleId=102911930&d=1&t=3&u=0433b9fbd1294507b9f6161b335f39dc)
2万+

被折叠的 条评论
为什么被折叠?



