【聚类算法】K-Means聚类

最新推荐文章于 2025-04-07 20:21:48 发布

原创

最新推荐文章于 2025-04-07 20:21:48 发布 · 494 阅读

KMeans聚类算法主要参数包括n_clusters（k值），max_iter（最大迭代次数），n_init（初始化运行次数）和init（初始质心选择）。k值的选择影响聚类效果，可以通过多次运行选择最佳。n_init默认10次，对于大k值可增加。init通常使用'k-means++'以优化初始中心。algorithm参数有'auto', 'full' 和 'elkan'，默认'auto'根据数据类型自动选择适合的算法。" 112808978,10535874,MATLAB音频信号处理指南：从音频到频谱分析,"['MATLAB', '音频处理', '信号处理', '数字信号', '频谱分析']

KMeans类的主要参数有：

　　　　1) n_clusters: 即我们的k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。

　　　　2）max_iter：最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。

　　　　3）n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。

　　　　4）init： 即初始值选择的方式，可以为完全随机选择'random',优化过的'k-means++'或者自己指定初始化的k个质心。一般建议使用默认的'k-means++'。

　　　　5）algorithm：有“auto”, “full” or “elkan”三种选择。"full"就是我们传统的K-Means算法， “elkan”是我们原理篇讲的elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的，来决定如何选择"full"和“elkan”。一般数据是稠密的，那么就是 “elkan”，否则就是"full"。一般来说建议直接用默认的"auto"

import numpy as np
import matplotlib.pyplot as plt
import matplot

最低0.47元/天解锁文章