kmeans聚类簇个数选择

本文介绍如何使用sklearn库实现KMeans聚类算法,并通过轮廓系数评估不同主题数量下的聚类效果。从2到20的主题个数范围内,构建KMeans模型并计算轮廓系数,最后通过可视化展示不同主题数量对应的轮廓系数变化。

借助sklearn库实现kmeans聚类和轮廓系数计算

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
K = range(2,20) # 设置主题个数区间
coef = [] 
for k in K:
    km = KMeans(n_clusters=k,random_state = 0).fit(feature) #构建kmeans模型并训练
    score = silhouette_score(feature, km.labels_,sample_size=1000) # 计算对应模型的轮廓系数
    coef.append(score)

可视化:

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(K,coef) # K为x轴输出,coef是y轴输出
plt.show()
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值