想必大家都听说过啤酒和尿布的故事,这种烂大街的例子很好的反映出关联分析的本质,这里简要提提这个所谓的啤酒和尿布。
有好事人儿发现周末的夜晚,家庭妇男为了和球赛度过一个美丽的夜晚,需要啤酒相伴,这个时候,一家之主兼政委主席——你的妻子却还需要照顾孩子,“想看球赛没问题,买啤酒顺便买尿布”。
对购物篮进行分析之后,惊喜的发现还真有这么回事儿。
这例子孰真孰假不得知,但起码它反映出了数据分析的价值之一——将两个毫不相干的事物建议起了一个关联规则。
-
首先,先介绍一些相关术语:
1)项:在关联分析中被研究的对象,也就是上述中的啤酒、尿布
2)项集:这些对象所组成的一个集合,{啤酒,尿布}
3)k项集:{啤酒,尿布}就是一个二项集
4)频数:一个项集出现的次数
5)支持度:一个项集出现的频率
举个栗子:
| TID |
Items bought |
| 10 |
A, B, D |
| 20 |
A, C, D |
| 30 |
A, D, E |
| 40 |
B, E, |

关联分析通过挖掘数据中项之间的关系,揭示潜在的购买模式,如啤酒与尿布的故事所示。本文介绍了关联分析的核心术语,如项、项集、支持度和置信度,并解释了频繁项集、闭合频繁项集的概念。同时,讨论了如何发现关联规则,包括置信度计算和多层次关联规则分析,以及兴趣度度量如提升度(lift)和余弦相似度,以避免误导性的规则。

2376

被折叠的 条评论
为什么被折叠?



