数据挖掘笔记（三）

最新推荐文章于 2026-04-07 05:07:05 发布

原创

最新推荐文章于 2026-04-07 05:07:05 发布 · 1.1k 阅读

标签

#笔记 #数据挖掘

收录于

本文介绍了数据挖掘中的频繁模式概念，包括购物篮分析、支持度和置信度等关键指标，以及Apriori算法的原理和步骤。Apriori算法通过迭代寻找频繁项集，并生成关联规则，但在某些情况下可能效率不高。频繁模式的评价方法中，Lift值用于衡量项目之间的关联强度，大于1表示正相关，小于1表示负相关。

频繁模式(frequent-itemsets)

基本概念

（1）频繁项集：频繁项集是经常出现在数据集中的模式
（2）购物篮分析：频繁项集的挖掘可以发现大数据集中项之间的关联和相关性。这有助于许多业务决策过程，如菜单设计、交叉营销和客户购物行为分析。购物篮分析就是分析客户的购买习惯。

（1）支持度 support(A -> B) = P ( AUB )
（2）置信度 confidence(A -> B) = P (A | B) = support(A -> B)/support(A) = support_count( AUB ) /support(A)
（3）最小支持阈值
（4）最小置信阈值

（4）同时满足最小支持阈值和最小置信度阈值的关联规则就称为强关联规则。
（5）k-itemsets （k项集），比如{a，b}就是一个2-itemsets
（6）itemsets的出现频率是包含itemsets的transaction数,也称为项目集的 frequency,、support count或 count .
（7）如果一个项集满足一个预定义的最小支持阈值，那么它就是一个频繁项集。
（8）关联规则挖掘分两步：