iTransformer实战：如何用倒置注意力机制提升时间序列预测效果（附代码）-CSDN博客

iTransformer实战：从理论到代码，重新定义时间序列预测的架构范式

如果你在过去几年里尝试过用Transformer做时间序列预测，大概率经历过这样的挫败：精心调参，模型在训练集上表现尚可，一到真实场景就“翻车”；或者，随着输入序列长度增加，预测精度不升反降，GPU内存却先撑不住了。更让人困惑的是，有时候，一个简单的线性模型（Linear Model）效果反而比复杂的Transformer更好。这不禁让人怀疑：Transformer这套在NLP和CV领域大杀四方的架构，在时间序列领域是不是水土不服？

最近读到ICLR 2024上的一篇工作《iTransformer: Inverted Transformers Are Effective for Time Series Forecasting》，它提供了一个全新的视角。这篇论文没有引入任何新的神经网络算子，只是把Transformer的注意力（Attention） 和前馈网络（FFN） 作用的维度“倒置”了一下，结果就在多个主流时间序列预测基准上达到了SOTA。这听起来有点“反直觉”，但仔细想想，却直击了传统方法在多变量时间序列预测中的几个核心痛点。

今天，我们不只复现论文，更想带你深入理解iTransformer的设计哲学，并手把手在ETT、Traffic等真实数据集上跑通整个流程。我们会重点探讨几个实战中绕不开的问题：层归一化（LayerNorm）该怎么配？变量令牌（Variate Token）如何生成？注意力头数如何选择？以及，相比传统Transformer，它在GPU内存和计算效率上究竟有何优势？

1. 传统Transformer在时间序列预测中为何“失灵”？

在开始动手之前，我们必须先搞清楚，为什么标准的Transformer架构在处理多变量时间序列时会遇到瓶颈。这关乎我们对数据本质的理解。

想象一下，你手头有一个城市交通流量数据集，包含过去96个小时里，全市862个传感器的车流量读数。传统Transformer会怎么做？它会把这862个传感器在同一时间点（比如今天下午3点）的读数，打包成一个“时间令牌”（Temporal Token）。然后，模型试图用自注意力机制去分析不同“时间点”之间的关系。

这里存在两个根本性问题：

语义混淆：下午3点，A路口因为事故拥堵，B路口却畅通无阻，C路口可能因为学校放学开始缓行。这三个传感器的读数（变量）物理意义不同，成因也不同。把它们强行嵌入到同一个令牌里，就像把苹果、橙子和香蕉打成果泥，再让你分辨各自的味道——信息损失严重。
感受野局限：一个时间令牌只包含一个瞬间的全局快照，缺乏每个传感器自身随时间变化的连续模式（如早晚高峰的周期性）。模型要理解“A路口拥堵通常会导致30分钟后B路口拥堵”这种跨时间的因果关系，变得异常困难。

这解释了为什么线性模型有时表现更好：它们对每个变量（传感器）独立地用全连接层（本质是线性变换）去建模其自身的时间依赖关系，反而更直接有效。iTransformer的核心思想，正是吸收了这种“以变量为中心”的视角。

注意：这里的“变量”（Variate）指的是时间序列的不同维度或通道，例如温度、湿度、风速，或者不同地点的传感器读数。在iTransformer中，每个变量自己的整个历史序列被当作一个独立的实体来处理。

2. iTransformer架构解析：一次维度的“翻转”

iTransformer的“倒置”（Inverted）体现在哪里？一言以蔽之：它将每个变量的整个时间序列视为一个令牌（Variate Token），让注意力机制作用于变量之间，让前馈网络（FFN）作用于每个变量的时间维度。

我们来拆解一下这个流程，并与传统Transformer做个对比：

组件	传统 Transformer (用于时间序列)	iTransformer (本文方法)	核心差异与优势
输入表示	`[批次大小, 时间步长, 变量数]`	`[批次大小, 变量数, 时间步长]`	输入张量的后两维被交换。
令牌化	每个时间步的所有变量值被嵌入为一个令牌。	每个变量的所有时间步值被嵌入为一个令牌。	令牌代表了单个变量的全局时间模式。
注意力机制	作用于时间令牌之间，捕捉时间依赖。	作用于变量令牌之间，捕捉多变量相关性。	更符合直觉：分析“温度”和“湿度”如何相互影响，而非分析“3点”和“4点”的关系。
前馈网络	作用于每个时间令牌的嵌入维度。	作用于每个变量令牌的时间维度，学习该变量的序列表示。	FFN成为强大的序列编码器/解码器，能从长历史序列中提取有效特征。
位置编码	需要，以注入时间顺序信息。	不再需要。序列的顺序信息隐含在FFN对时间维度的处理中。	简化了模型结构。
核心任务	建模时间点之间的依赖关系。	建模变量之间的依赖关系，并用FFN处理每个变量的时间模式。	解耦了“