非监督学习--聚类分析&时间序列分析

最新推荐文章于 2024-10-20 08:50:05 发布

原创最新推荐文章于 2024-10-20 08:50:05 发布 · 1.3k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #学习笔记

数据科学专栏收录该内容

3 篇文章

订阅专栏

本文介绍了非监督学习中的两种重要方法——k-均值聚类和层次聚类，详细阐述了它们的原理、优缺点以及实现步骤。同时，深入探讨了时间序列分析，包括趋势分析、预测方法如移动平均法、指数平滑法及其变种，为时间序列预测提供了基础理解。

Cluster Analysis

聚类分析(Cluster Analysis)的定义：

非监督学习分析手段的一种.考虑给的数据的特性,定义相似数据集团（聚类）的分析技巧.
每个数据只能对应一个聚类的独有(Exclusive) 方式

k-均值聚类(k-means Clustering)

k-均值聚类是采用分割空间的原理具有使各观测值处于最接近重心聚类的聚类化方法。

特征：

非层次性: 聚类的数量已经定好（比如要分为2个group）
定的阶段到模型集中时反复的运行运算法则
独立变量: 连续变量
从属变量:用户定义类别

重心点：数据位置数值化后求的平均位置点。

参考：https://www.cnblogs.com/haoqingchuan/articles/2359104.html

https://blog.csdn.net/fengbingchun/article/details/79276668

K-均值聚类原理

Step0. 初始指定K个基准点

Step1. 对各数找出最近的基准点

Step2. 计算绑定在一起数据的重心点（Centroid)

Step3 设定计算出来的重心点为新的基础点

反复Step1到Step3。

终止规则(Stopping Rule)：

Step 1的对应结果和之前步骤Step 1的结果相同的情况
执行初期设定的重复次数时Stop
Step 2的重心位置和之前步骤Step 2的结果比较后，即使跟step1终止规则完全不一致，移动的程度比指定值变小的情况Stop
Etc.

k-均值聚类(k-means Clustering) 优/缺点

•优点：

如果去反复充分的模型生成过程保证收敛性
比较性运算快
分割的空间型态的模型: 对新数据可以预测类别

•缺点

事前需要对聚类数(k)预想
异常值及变量范围敏感，需要除去异常值或者标准化正规的流程
根据初始基准点聚类结果也可能变的不一样，安全性降低

层次聚类Hierarchical Clustering

层次聚类是将个数据构成的聚类以近的距离为准逐渐并入道剩下一个聚类的聚类分析方法。

层次聚类(Hierarchical Clustering)优/缺点

•优点

不需要设定初始聚类数
如果确定距离函数的话模型的体现简单
通过系统树图(Dendrogram)模型解析容易

缺点

因为每个step对聚类的距离计算要重新运行，对大的数据聚类计算速度慢
低安全性: 小数数据变动时也能得到完全不同的聚类结果
异常值及变量范围敏感

聚类间距离/连接法(Linkage Methods)

1.最短连接法(Single Linkage Method)

2.最长连接法(Complete Linkage Method)

3.平均连接法(Average Linkage Method)

4.中心连接法(Centroid Linkage Method)

5. Ward连接法(Ward’s Linkage Method)

通过Group合并前/后的SSE(Sum of Squared Error)区别为group的距离

Time Series Analysis

时间数列数据(Time Series Data)

用一定时间间隔分配的数据数列
一般的时间数列数据具有相同的时间间隔(Time Period)

例)国民总生产,股价指数,物价指数,降水量等。

时间数列分析

一个时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。

例) 往后一周间股价预测,下个月销售额预测

时间数列分析的应用：

产品库存和生产管理的需求计划
产业流程的管理和最优化
sensor signal分析的monitoring
时间类别的Weblog分析等

趋势(trend)

某种现象以一定的方向发展的倾向，方向有上升和下降

趋势种类：线性、2次、指数、S-曲线

时间数列预测评价方法

1.事前评价

为了预测从而研究观察到使用的数据的正确性，使用了多少量？尽可能的使用了最新的数据吗？等等，即研究数据本身的妥当性

2.事后评价

时间序列分解(Decomposition)

时间序列中存在“季节成分”时，单纯想要调查成分要素的特征时使用
欲求预测值的情况

分解方法：加法模型、乘法模型

时间数列预测方法(平滑法)

时间数列预测(time series prediction)指的是查看所给与的时间序列，制作数学模型，从而预测未来将要发生的.

一般来说，这种方法在工学或者科学计算,或者金融市场的股价预测等上使用的较多.

平滑法：使值圆滑从而接着去预测的方法。

平滑法：

❶移动平均法: Moving Average

❷加权移动平均法: Weighted Moving Average

❸单一指数平滑法: Exponential Weighted Moving Average (EWMA)

❹双重指数平滑法: 考虑趋势变动(Winters法)

❺三重指数平滑法: 考虑趋势，季节变动(Holt-Winters法)

Moving Average Method(移动平均法)

是用最近N个观察值的单一平均值来推断下一个期间预测值的方法。

能够平均且全面地掌握过去几个观测值趋势的方法。

将过去的几个观测值平均，以此来预测未来值
移动平均法中，对过去值应用的加权值相同

需要决定用几个来平均的这种就称为term或window size;比如上图使用3个观测值，就叫3 term。

3term的时候，预测值的个数是总共7个数据中可预测5个。即全部样本个数-3+1 的值，即为预测值的个数。

移动平均法存在问题：

认为时间长的观测值和时间短的值的影响相同，错误可能性高
季节性存在时即为问题
仅可预测下阶段1

Weighted Moving Average Method(加权移动平均法)

根据观察值，给予不同的加权数的移动平均法。

Exponential Smoothing Method(指数平滑法)

缓解/避免短期所发生的波动或者冲击的平滑法(Smoothing)。

放入长期间的预测值去避免短期间所发生的波动和冲击。

‘移动平均(Moving Average)’在各数据中一致以‘1/n’加权
‘指数平滑(Exponential Smoothing)’是为了给予越近的观测值更多加权值，以指数函数减少过去观测值的加权值

想使用指数平滑法进行预测的话，必须设定时序数据中的预测误差是不相关的，且服从零均值、方差不变的正态分布。

使用过去的所有数据求得平均的同时，赋予最近数据更高的加权值的方法也称为指数加权移动平均平滑法(Exponential Weighted Moving Average : EWMA)。

指数平滑系数α：

在不规则变动较大的数据中适用小α:

=> 较少的反映实际值(平滑了较多，从而可顺畅地预测)

在不规则变动较小的数据中适用较大值的α:

=> 较多的反映实际值(平滑变小，赋予之前的值较多的预测比重)

备注：一般，第2个预测值是使用之前时间点的sales值。

单一指数平滑(Single Exponential Smoothing)

1957年Charles C. Holt

指数函数赋予加权值的平滑化
适合没有“趋势变动”和“季节变动”的情况

常数‘alpha’也叫平滑常数(Smoothing Constant)。范围主要使用0~1。

双指数平滑(Double Exponential Smoothing)

1958年

单一指数平滑’两次运用
线性趋势’存在时适用

三重指数平滑(Triple Exponential Smoothing)

或‘ HW Method(Holt-Winters Method)’, 包含1965年Winters的季节成分

指数平滑’的三次(即, 以指数函数加权的参数存在3个) 运用
不仅是‘趋势’，包括‘季节变化’等所有情况适用

EWMA

(Exponentially Weighted Moving-Average)

指数加权移动平均值.

每个 EWMA 点都结合了来自之前所有子组或观测值的信息。可以定制 EWMA 控制图以检测过程中任意大小的偏移。由于此原因，通常使用这些控制图来监控受控制过程，以检测与目标距离较小的偏移。