五, 聚类模型的介绍与创建 (clustering Model)
什么是聚类分析:
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。在数据挖掘中,聚类也是很重要的一个概念。
聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化而组间距离最大化,如下图所示:

更多介绍请参考:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine-learning-initialize-model-clustering
https://baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90%E6%B3%95/4812805?fr=aladdin
下面介绍如何在Azure 的Machine Learning 中创建聚类模型:
- 按照之前介绍的方式,把Blood donation data.csv 上传到数据集里,把数据集控件拖到中间功能区域内进行操作。
- 之后再增加一个Select Columns in Dataset 控件,因

本文介绍了聚类分析的基本概念,作为非监督学习的一种方法,聚类旨在通过数据相似度来划分组别。在Azure Machine Learning中,通过实际操作展示了如何创建并应用K-Means聚类模型于献血数据,分析了不同数量聚类的效果,得出献血人群可分为两类的结论。
5210

被折叠的 条评论
为什么被折叠?



