金融时间序列的分数阶差分:一种保留记忆的平稳化方法
基于 Marcos Lopez de Prado《金融机器学习进阶》第5章
1. 核心困境:记忆与平稳性的权衡
在金融机器学习中,原始资产价格序列 PtP_tPt 通常是非平稳(Non-stationary)的——具有随机游走特性,均值和方差随时间漂移,不满足大多数统计/ML模型对输入数据平稳性的假设。传统解决方案是对价格做一次差分得到收益率:
rt=(1−L)Pt=Pt−Pt−1 r_t =(1-L)P_t = P_t - P_{t-1} rt=(1−L)Pt=Pt−Pt−1
其中 LLL 是滞后算子(Backshift Operator),LPt=Pt−1LP_t = P_{t-1}LPt=Pt−1。
- d=0(原始价格):完全保留长期记忆(Long Memory)和趋势信息,但非平稳,模型难以泛化。
- d=1(一阶差分/收益率):近似平稳,但完全丢失了水平(Level)信息——收益率只依赖前一个价格,所有更早的历史被"切断",模型出现"记忆丧失(Amnesia)",损失了均值回归、趋势跟踪等预测信号,丢失了价格序列中潜在的、有价值的长期记忆结构(如市场状态的“惯性”)。
Marcos Lopez de Prado 提出:分数阶差分将差分阶数从整数推广到实数 d∈[0,1]d \in [0,1]d∈[0,1],在"达到平稳性"和"保留记忆性"之间取得连续可调的平衡。
- 注1:在金融数据语境下,**“非平稳(Non-stationary)”可以通俗理解为:**数据的基本统计特性(均值、方差、自相关性)会随时间发生变化,而不是稳定在一个固定水平附近。
- 注2:单位根(Unit Root):统计学里用来严格描述“非平稳”原因的一个概念。存在单位根 = 变量有“记忆过去所有冲击”的特性,过去的随机扰动会永久影响未来值,导致序列不会围绕固定均值波动 → 非平稳。
2. 分数阶差分的数学原理
德普拉多提出的解决方案是使用分数阶差分算子。它允许我们用一个非整数 ddd 进行差分,从而在“完全保留记忆”和“完全平稳”之间找到一个连续的光谱。
2.1 数学定义
对于一个时间序列 XXX,其 ddd 阶差分 ∇dX\nabla^d X∇dX 可以通过二项式展开表示为:
∇dXt=∑k=0∞ωkXt−k \nabla^d X_t = \sum_{k=0}^{\infty} \omega_k X_{t-k} ∇dXt=k=0∑∞ωk


318

被折叠的 条评论
为什么被折叠?



