Gap Statistic
Gap statistic由Tibshirani等人提出,用以解决聚类问题确定所判定类的数目。
聚类的紧支测度 (measure of the compactness)
最简单的方法是使用类内样本点之间的欧式距离来表示,记为 Dk , DK 越小聚类的紧支性越好。Ref
Dk=∑xi∈Ck∑xj∈Ck||xi−xj||2=2nk∑x
Gap Statistic是一种由Tibshirani等人提出的用于聚类问题中确定最佳类别数目的方法。它通过比较聚类的紧支测度(Dk)和参考直的测度来工作。Python实现中,通过对数据进行Monte Carlo采样得到参考直,测试结果显示理想的k值为3。
Gap statistic由Tibshirani等人提出,用以解决聚类问题确定所判定类的数目。
最简单的方法是使用类内样本点之间的欧式距离来表示,记为 Dk , DK 越小聚类的紧支性越好。Ref
701

被折叠的 条评论
为什么被折叠?
