聚类算法效果衡量标准

最新推荐文章于 2025-08-12 09:27:12 发布

原创最新推荐文章于 2025-08-12 09:27:12 发布 · 4.5k 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

算法思想专栏收录该内容

13 篇文章

订阅专栏

1.SSE—误差平方和：每类中的点到对应质心的欧氏距离平方的和，值越小，聚类效果越好

与K值相关，只能取到确定k值的最优解，而不是全局最优解

求每类中的点到对应质心的距离的和

使用的函数：

scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None)，该函数用于计算两个输入集合的距离，通过metric参数指定计算距离的不同方式得到不同的距离度量值

实现功能：计算X与kmeans.cluster_centers_（每个类的质心坐标）欧氏距离的和

sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1))

2.轮廓系数法（Silhouette Coefficient），越接近1，聚类效果越好

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=Silhouette

结合了聚类的凝聚度和分离度，用于评估聚类的效果

对于其中的一个点 i 来说：

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)，称为凝聚度

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)，称为分离度

那么 i 向量轮廓系数就为：

可见轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数

使用的函数：

# 评估指标——轮廓系数,前者为所有点的平均轮廓系数，后者返回每个点的轮廓系数

from sklearn.metrics import silhouette_score, silhouette_samples

3.Calinski-Harabasz(CH)指标，S值越大，聚类效果

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=calinski_harabaz_score

对于簇，Calinski-Harabaz 得分是作为 between-clusters dispersion mean （簇间色散平均值）与 within-cluster dispersion（群内色散之间）的比值给出的:

$s(k) = \frac{\mathrm{Tr}(B_k)}{\mathrm{Tr}(W_k)} \times \frac{N - k}{k - 1}$

其中 B_K 是 between group dispersion matrix （组间色散矩阵）， W_K 是由以下定义的 within-cluster dispersion matrix （群内色散矩阵）:

$W_k = \sum_{q=1}^k \sum_{x \in C_q} (x - c_q) (x - c_q)^T$

$B_k = \sum_q n_q (c_q - c) (c_q - c)^T$

为数据中的点数， C_q 为 cluster （簇）中的点集， c_q 为 cluster（簇）的中心，为的中心， n_q 为 cluster（簇）中的点数。

使用的函数：

from sklearn.metrics import calinski_harabaz_score

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。