机器学习小问题之分类与聚类有什么区别？

最新推荐文章于 2025-02-20 21:10:52 发布

原创最新推荐文章于 2025-02-20 21:10:52 发布 · 3.8k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#聚类分析 #分类 #机器学习 #聚类与分类的区别

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

机器学习

6 篇文章

订阅专栏

本文探讨了机器学习中的聚类与分类问题。聚类是将对象按相似性分为多个类别的无监督学习方法，包括Q型和R型聚类，常见方法有层次聚类和K-means等。分类则是基于已知类别标签的样本进行学习，属于有监督学习。两者的本质区别在于，聚类分析不需要预先知道类别，而分类则需要有标签的训练数据。

机器学习中的大部分问题都可以归为聚类或者分类问题。例如，我们利用神经网络来进行手写体数字识别，无非是将所有手写体数字图片分为标签为0,1,2,...,9这10个类别。

当我们分别来谈论聚类和分类问题时，我们对这两个概念都不陌生。但是，当我们将两者放在一起来谈时，我们可能又会发现，我们对二者的界限是很模糊的，仿佛二者说的是同一件事情。

所以，接下来我们就来梳理一下二者到底有什么区别。

聚类 Clustering

定义：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

简介

聚类，也被称作聚类分析，是一种重要的机器学习方法。聚类分析一般分为Q型聚类和R型聚类。聚类的过程一般是先根据聚类对象及实际数据特点选择合适的统计量，然后利用这个统计量对数据或变量进行聚类。下面稍作详细介绍。

聚类分析的分类

Q型聚类分析：对样本进行聚类分析的聚类过程称为Q型聚类分析。

R型聚类分析：对指标变量进行聚类分析的聚类过程称为R型聚类分析。

聚类分析的过程

数据预处理：是一个将数据标准化的过程，避免不同变量的量纲不同导致相似性度量的差异。

构造关系矩阵：是为了度量变量（或者样本）质量的亲疏关系。

聚类：利用这个关系矩阵，利用不同的聚类方法进行聚类。

确定最佳分类：最后根据聚类的表现，选择最佳聚类方法和最佳类比数目。

数据标准化常见方法
名称	公式	作用

Z Scores		变换后的数据均值为0，标准差为1，消去了量纲的影响；当抽样样本改变时，它仍能保持相对稳定性。
Range –1 to 1：极差标准化变换		变换后的数据均值为0，极差为1，且\|xij*\|<1，消去了量纲的影响；在以后的分析计算中可以减少误差的产生。
Maximum magnitude of 1		变换后的数据最大值为1。
Range 0 to 1（极差正规化变换 / 规格化变换）		变换后的数据最小为0，最大为1，其余在区间[0，1]内，极差为1，无量纲。
Mean of 1		变换后的数据均值为1。
Standard deviation of 1		变换后的数据标准差为1。

关系矩阵构造——距离、相似性度量方法
名称	公式
欧氏(Euclidean)距离
切比雪夫(Chebychev)距离
明氏(Minkowski)距离
夹角余弦
Pearson相关系数
Block：绝对值距离（一阶Minkowski度量）

常用聚类方法

常见的聚类方法有：系统聚类（层次聚类）、K-means聚类、谱聚类等

分类

定义：分类是根据一些给定的已知类别标号的样本，训练某种学习机器（即得到某种目标函数），使它能够对未知类别的样本进行分类。

分类是一种重要的机器学习方法。它通过对已有样本的不断学习来掌握各个类别的内部结构，从而最新的样本进行分类处理。其实我们在学习机器学习、深度学习的相关知识时，已经见识到很多的分类器了，所以相比于聚类分析而言，分类的相关知识会很分散一些，这里就不详细说，但是之后会继续作相关总结。

聚类与分类的区别

根据上面的介绍，我们可以很清楚的发现，二者最显著的区别在于：

聚类分析是无监督学习，分类学习是有监督学习。

所以，如果想利用分类方法来对数据进行分类，训练模型用的样本必须是有标签的，这样模型才能不断地学习、优化最后达到良好的分类效果，（同时我自己觉得，因为需要训练模型，所以样本量应该不能太小）；如果数据本身是无标签的，那么可以选择用聚类的方法实现分类效果。同时，也不难理解，聚类分析事先并不知道要最终分成多少类，而分类学习是最初就会指定有多少个类别（训练集的标签就已经指明了）。