k-shape时间序列聚类(tslearn)

原创

已于 2022-12-03 20:46:13 修改 · 3w 阅读

·

23

·

标签

#聚类 #数据挖掘

于 2020-08-23 21:15:27 首次发布

本文探讨时间序列数据挖掘中的聚类技术，重点介绍k-shape算法，一种针对形状计算距离的聚类方法。文章涵盖时序聚类应用、k-shape算法优缺点及其实现步骤，包括数据预处理、轮廓系数计算、聚类标签获取和结果可视化。

时间序列聚类概述

时间序列数据挖掘从技术角度来讲，一般有四种：时间序列预测，时间序列分类，时间序列聚类，时间序列异常检测，基本上包含了机器学习的几大领域。由于时序数据的特殊性，所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法。

时间序列数据的聚类，关键在于如何定义相似度，比如基于时间序列特征（len,max,min,std,lag）作为特征，描述不同时序的特性，可以使用 KMeans算法，用欧式距离进行聚类。
除了欧式距离以外，还可以使用DTW等方法，基于动态规划原理，对时间序列进行扭曲，进行必要的错位，计算出最合适的距离，将形状相似的序列具有同一个类，非常简洁的一篇理解DTW计算距离的算法文章见个人所写另一篇博客

时间序列聚类的应用

作为一种广泛的数据挖掘手段，时间序列聚类的用途，就个人理解来说，首先是辅助机器学习建模预测，可以把聚类结果作为一种特征放入模型中，当然也可以用于不同序列分类预测的标签，其次是，用于新品预测等，依据形状相似度，找到相似的产品，发现商品潜在的未来规律，等等。

k-shape算法优点就是针对形状计算距离，优点很鲜明，同时不得不说的是计算复杂度很高，且我们使用tslearn包进行聚类，是需要不同的序列长度一致的。

不同形状的时序聚类效果
在这里插入图片描述

最低0.47元/天解锁文章

评论 53

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。