从‘肘部法则’到‘轮廓系数’：K-Means聚类中K值选择的全面指南

最新推荐文章于 2026-06-17 15:24:14 发布

原创

最新推荐文章于 2026-06-17 15:24:14 发布 · 1k 阅读

标签

#K-Means #聚类分析 #机器学习

收录于

从‘肘部法则’到‘轮廓系数’：K-Means聚类中K值选择的全面指南

1. 聚类分析中的K值选择困境

在电商用户分群的实际场景中，我们常常面临一个关键问题：如何确定最佳的客户群体数量？K-Means作为最常用的聚类算法之一，其效果高度依赖于预先设定的K值（聚类数量）。选择不当的K值可能导致两种极端：

K值过小：将本质不同的用户强行合并，丢失有价值的细分信息
K值过大：过度分割用户群体，增加运营复杂度且难以解释

传统经验法则如√n/2（n为样本量）往往过于粗糙。本文将系统介绍四种科学确定K值的方法，并通过Python实战演示如何在电商用户分群中应用这些技术。

2. 核心方法论解析

2.1 肘部法则（Elbow Method）

肘部法则通过观察簇内平方和（WCSS）随K值变化的曲线来寻找"拐点"：

from sklearn.cluster import KMeans

wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.plot(range(1,11), wcss, 'bo-')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.title('Elbow Method')

关键特征：