借助sklearn库实现kmeans聚类和轮廓系数计算
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
K = range(2,20) # 设置主题个数区间
coef = []
for k in K:
km = KMeans(n_clusters=k,random_state = 0).fit(feature) #构建kmeans模型并训练
score = silhouette_score(feature, km.labels_,sample_size=1000) # 计算对应模型的轮廓系数
coef.append(score)
可视化:
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(K,coef) # K为x轴输出,coef是y轴输出
plt.show()
本文介绍如何使用sklearn库实现KMeans聚类算法,并通过轮廓系数评估不同主题数量下的聚类效果。从2到20的主题个数范围内,构建KMeans模型并计算轮廓系数,最后通过可视化展示不同主题数量对应的轮廓系数变化。

456

被折叠的 条评论
为什么被折叠?



