机器学习中的聚类与隐马尔可夫模型
1. 聚类算法概述
聚类是一种无监督的机器学习算法,用于发现数据中的结构。它在训练数据集不包含对应标签的情况下特别有用,这也是无监督学习的典型特征。有时候,数据标注过于不便,聚类算法就能发挥重要作用。
常见的聚类算法有K - 均值聚类,它是最容易实现和理解的算法之一,在速度和准确性方面也表现出色。如果没有指定聚类的数量,可以使用自组织映射(SOM)算法从简化的视角查看数据。此外,还可以通过观察SOM的输出,或者观察权重的梯度来自动找到合适的质心候选点。对于有探索精神的人,推荐阅读Juha Vesanto和Esa Alhoniemi的著名论文“Clustering of the Self - Organizing Map”(http://mng.bz/XzyS)。
2. 聚类的应用
聚类有许多实际应用,例如音乐整理和音频片段分割以标记相似的声音。下面以手机或智能手表加速度计的传感器数据为例,介绍聚类在处理时间序列数据中的应用:
- 数据获取 :加速度计在每个时间步提供一个三维向量,但我们不知道用户是在走路、站立、坐着、跳舞还是慢跑等。可以从http://mng.bz/rTMe获取这样的数据集。
- 特征向量生成 :要对时间序列数据进行聚类,需要将加速度计向量列表总结为简洁的特征向量。一种方法是生成加速度连续幅值之间差异的直方图。加速度的导数称为加加速度(jerk),也可以对加加速度幅值的差异应用相同的操作来生成直方图。
- 数据处理与聚类 :生成直方图的过程与本章中音频数据的预处理步
超级会员免费看
订阅专栏 解锁全文



1419

被折叠的 条评论
为什么被折叠?



