一文读懂Fast Video Generation with Sliding Tile Attention视频生成加速技术核心原理

原创于 2026-06-21 16:59:40 发布 · 99 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #AIGC #机器学习 #深度学习 #AI-native

AIGC 专栏收录该内容

46 篇文章

订阅专栏

写在前面

欢迎大家关注Rocky的公众号：WeThinkIn
欢迎大家关注Rocky的知乎：Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享：WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star～

AIGC时代的 《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源： 【三年面试五年模拟】AI算法工程师面试秘籍

Rocky最新撰写AI Agent（AI智能体）的深入浅出全维度解析文章： 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

AIGC算法岗/开发岗面试面经交流社群（涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源）欢迎大家加入：https://t.zsxq.com/33pJ0

大家好，我是Rocky。

核心导读

视频生成进入 DiT 时代以后，一个很现实的问题开始浮出水面：模型会生成了，但生成得太慢。论文《Fast Video Generation with Sliding Tile Attention》讨论的正是这个瓶颈。它不是单纯提出一个新的稀疏注意力技巧，而是在回答一个更底层的问题：视频 DiT 里的冗余，怎样才能真正变成 GPU 上的延迟下降，而不是只停留在 FLOPs 下降的纸面收益上。

Rocky 认为，这篇论文真正值得读的地方，不是“Sliding Tile Attention”这个名字，而是它把视频生成加速里的三个层次打通了：第一，视频 token 的注意力确实有很强的三维局部性；第二，传统 sliding window attention 虽然看起来符合局部性，但在高维视觉场景里会制造大量 GPU 不友好的 mixed blocks；第三，只有把稀疏结构重排成硬件喜欢的 dense block / empty block，稀疏才会从算法假设变成真实吞吐。

论文在 HunyuanVideo 上给出的核心结果很直接：生成 5 秒 720P 视频时，FA3 版本端到端延迟为 945 秒；训练自由的 STA 将延迟降到 501 秒，同时不需要重新训练；如果允许少量微调，延迟进一步降到 268 秒，VBench 总分只从 82.71% 变到 82.62%。从工程角度看，这不是“牺牲质量换速度”的粗暴压缩，而是把视频生成里原本被全注意力掩盖的局部结构，重新表达成硬件可以高效执行的计算图。

在这里插入图片描述

图 1 是理解这篇论文的入口。左侧显示，当序列长度从 10K 增长到 115K token 时，attention 从非主导项变成绝对瓶颈；右侧更关键：NATTEN、CLEAR、Tiled NATTEN 等方法即使减少了理论 FLOPs，也没有稳定转化成 wall-clock speedup。STA 的意义恰恰在这里：它不是说“少算一点”，而是说“少算的部分必须以 GPU 能跳过、能并行、能保持高 MFU 的方式少算”。

问题背景：作者到底想解决什么

当前高质量视频生成模型越来越依赖 Diffusion Transformer。DiT 的优势在于它可以把空间和时间维度上的 token 拉平成统一序列，用 3D full attention 建模长程依赖。这个设计带来表达能力，也带来平方级注意力成本。对于 720P、5 秒、117 帧的视频，HunyuanVideo 经过 VAE 压缩后仍然对应大约 115K token。论文给出的数字是：在 FA3 和 H100 上，attention 单项耗时约 800 秒，总推理耗时约 945 秒。

这里的本质矛盾是：视频天然有冗余，但全注意力把每个 token 都当成可能与所有 token 强相关。相邻帧之间变化有限，空间邻近区域也更可能相关，这意味着全局 dense attention 里有大量“理论上可计算、实际上贡献很小”的连接。问题是，这些冗余能不能被安全拿掉？

很多人第一反应会想到 sliding window attention。既然视频有局部性，那让每个 query 只看附近 key，不就能省掉远处 token 的计算吗？论文的回答比较冷静：算法上的局部窗口不等于硬件上的高效稀疏。 在 2D/3D 视觉场景里，token-wise sliding window 会产生高度不规则的 attention mask，FlashAttention 这类块级计算框架并不能轻松利用这种稀疏。结果就是 FLOPs 看起来降了，实际延迟却可能没有降，甚至变慢。

这也是这篇论文的技术主线：先证明视频 DiT 的注意力确实有 3D locality，再证明传统 SWA 的计算结构不适合 GPU，最后提出 STA，把滑动单位从 token 改成 tile，让局部注意力以 dense block 的形式落到硬件上。

核心思路：用一句主线串起来

这篇论文的主线可以压缩成一句话：

视频 DiT 的全注意力冗余主要来自三维局部性；STA 把 token 级滑窗改成 tile 级滑窗，让同一个 tile 内的 query 共享 key tile 集合，从而把不规则稀疏变成 GPU 友好的块级稠密计算。

这个转变看起来很小，但非常关键。传统 SWA 是“每个 query 有自己的窗口”，所以不同 query 的可见 key 集合不断变化，落到 attention matrix 上就是大量 mixed blocks。STA 是“每个 query tile 共享一个窗口”，这样一个 query tile 和一个 key tile 之间要么整块计算，要么整块跳过。GPU 看到的是 dense block 与 empty block，而不是需要在块内反复判断的复杂 mask。

这正是 Rocky 认为它有研究价值的地方：很多 AI 加速工作失败在“只优化数学复杂度，没有优化计算形态”。STA 的价值是把稀疏性翻译成了硬件执行结构。

方法展开：沿着论文原始逻辑拆解

1. 先证明视频注意力真的有局部性

论文首先观察 HunyuanVideo 的 attention score。它发现，即使模型训练时使用的是 full 3D attention，query 的注意力也明显集中在空间和时间上相邻的 key 区域。换句话说，full attention 学出来的行为本身就不是均匀全局连接，而是带有很强局部热点。

在这里插入图片描述

图 2 展示的是一个 query 点在不同帧上的注意力响应。绿色点是 query，热力区域是高 attention score 的 key 区域。可以看到，注意力不是均匀铺开到整帧，而是在 query 附近形成局部热点，并随着时间维度保持附近响应。这个现象很重要，因为它让“稀疏化”不再只是工程愿望，而有了模型行为上的证据。

论文进一步用 attention recall 来量化局部性。attention recall 指某个局部窗口内 attention score 占总 attention score 的比例。论文报告，在 HunyuanVideo 中，一个只覆盖 15.52% token 空间的局部窗口，平均可以覆盖 70% 的 attention score。

在这里插入图片描述

图 3 左侧说明，不同 layer/head 的 recall 有差异，但总体存在明显局部集中。右侧更有意思：跨不同 prompt 的标准差较低，说明这种局部性不是某个具体输入偶然诱发的，而更像是视频 DiT 预训练后形成的结构性行为。论文把这进一步解释为 head specialization：不同 head 有不同局部窗口需求，有些 head 更关注小范围细节，有些 head 需要更大上下文。

这给后面的 training-free 策略埋下了伏笔：如果每个 head 的局部范围在不同 prompt 上相对稳定，那么可以用少量 prompt 做 profiling，给不同 head 搜索合适窗口，而不是重新训练整个模型。

2. 为什么直接用 sliding window attention 不够

到这里，直觉上似乎应该直接把 full attention 换成 3D sliding window attention。但论文的关键反转在于：token-wise SWA 在高维视觉数据上并不 GPU-friendly。

先看标准注意力公式。对于单个 attention head：

公式（1）：

$S=\frac{QK^{\top}}{\sqrt{d_k}},\quad A=\mathrm{Softmax}(S+M),\quad O=AV$

其中 $M$ 是 attention mask。FlashAttention 的核心优化是避免显式物化完整 $S$ 和 $A$ ，通过 tile/block 与 online softmax 降低 HBM 和 SRAM 之间的数据搬运。但当你引入复杂稀疏 mask 时，问题变成：块级计算到底能不能跳过？

论文把 attention blocks 分为三类：

类型	含义	对 GPU 的影响
Dense block	块内所有 score 都保留	可以直接做高效 dense attention
Empty block	块内所有 score 都被 mask	可以整块跳过
Mixed block	块内部分 score 保留、部分被 mask	最麻烦：仍要计算整块，还要做块内 mask 判断

传统 2D/3D sliding window 的问题，就是会产生大量 mixed blocks。每个 query 的窗口中心都不同，attention map 会出现类似锯齿状的块内稀疏。GPU 不能简单整块跳过，只能先算再 mask，最后还要为复杂 mask 付出判断开销。

在这里插入图片描述

图 4 直观展示了这件事。NATTEN 会制造大量 mixed blocks；Tiled NATTEN 通过重排增加了一些 dense blocks，但 mixed blocks 仍然存在；STA 则把 attention map 改造成只剩 dense blocks 和 empty blocks。Rocky 认为，这张图是论文的核心图，因为它把“为什么 FLOPs 降了但速度没降”的工程原因讲透了。

这也解释了表 1 的意义。STA 的混合块比例为 0，而 Tiled NATTEN 仍有 mixed blocks。

表 1：Tiled NATTEN 与 STA 的 dense/mixed block 比例

Attention	Window Size	Dense Block	Mixed Block
Tiled NATTEN	(11, 11, 11)	0.06%	7.17%
STA	(12, 12, 12)	1.56%	0.0%
STA	(20, 20, 20)	7.23%	0.0%

这里不要只看 dense block 的百分比大小。更重要的是 mixed block 为 0。因为 empty block 可以跳过，dense block 可以高效算，mixed block 才是稀疏 attention 在 GPU 上最难处理的“中间态”。

3. STA：把滑动单位从 token 改成 tile

STA 的方法很朴素：不再让每个 query token 拥有自己的滑动窗口，而是把视频 token 分成空间-时间 tile。一个 tile 内的所有 query 共享同一组 key tiles。这样一来，query tile 和 key tile 之间的 attention 块天然是 dense block。

在这里插入图片描述

图 5 用 2D 场景解释 STA。假设 tile size 是 $(2, 2)$ ，window size 是 $(6, 6)$ ，每个 query tile 会 attend 到窗口内的 9 个 key tiles。因为 tile 内 token 的序列编号被安排为连续，所以每个 query tile 到 key tile 的计算对应 FlashAttention 里的 dense block。扩展到 3D 视频时，tile 变成时空小立方体，逻辑相同。

形式化地说，设视频 latent 形状为 $(L, L, L)$ ，FlashAttention block size 为 $(B, B)$ ，STA 选择 tile size $T$ ，使得：

$B=T^3$

视频被划分成 $(T, T, T)$ 的非重叠 tile，并在 flatten 成一维序列时保证同一 tile 内的 token 编号连续。窗口不再以 token 为步长滑动，而是以 $(T, T, T)$ 为步长滑动。

论文给出两个定理来比较 Tiled NATTEN 和 STA 的块结构。为了便于阅读，这里保留核心公式。

对于 Tiled NATTEN，忽略边界影响，dense blocks 数量为：

公式（2）：

$N_{\mathrm{dense}}= \left( \max \left( 2\left\lfloor\frac{W+1}{2T}\right\rfloor-1,\;0 \right) \right)^3 \cdot \left(\frac{L}{T}\right)^3$

mixed blocks 数量为：

公式（3）：

$N_{\mathrm{mix}}= \left( 2\left\lceil\frac{W-1}{2T}\right\rceil+1 \right)^3 \cdot \left(\frac{L}{T}\right)^3 -N_{\mathrm{dense}}$

而对于 STA，如果 $W$ 是 $T$ 的整数倍，dense blocks 数量为：

公式（4）：

$S_{\mathrm{dense}}= \left(\frac{W}{T}\right)^3 \cdot \left(\frac{L}{T}\right)^3$

其余 block 全部为空，没有 mixed block。

这就是 STA 在工程上的关键：它没有试图让 GPU 去适应复杂稀疏，而是把稀疏模式设计成 GPU 已经擅长的 dense block 计算。

4. Kernel 级优化：真正把稀疏变成吞吐

如果只有 tile-level mask，STA 还只是算法设计。论文进一步用 ThunderKittens 和 FlashAttention3 风格的 producer-consumer 结构实现 kernel。

它把 threadblock 拆成两类 warpgroups：

角色	负责内容	关键意义
Producer warpgroups	从 HBM 异步加载需要的 K/V blocks 到 SRAM，并决定哪些 key/value blocks 要被加载	稀疏 mask 逻辑被放到数据加载侧
Consumer warpgroups	对已经加载到 SRAM 的 dense blocks 做 attention 计算	计算侧不需要知道复杂稀疏结构，只做高效 dense attention

这一步非常关键。传统稀疏 attention 的麻烦在于计算 kernel 需要在块内不断判断哪些位置有效。STA 让 producer 负责跳过 empty blocks、加载有效 key/value blocks，而 consumer 始终面对 dense blocks。换句话说，稀疏被“调度化”了，而不是“计算时临时判断化”。

Rocky 认为，这类工作对 AI 系统工程的启发很强：很多时候，模型加速不是把数学公式写成更低复杂度就结束了，而是要把复杂度下降转译为内存访问、并行粒度、mask 判断和 kernel occupancy 的改善。

5. Training-free 与 Finetuning：两条落地路径

论文给 STA 设计了两条使用路径。

第一条是 training-free。既然不同 head 的局部性在 prompt 间相对稳定，可以先用少量 prompt profiling，搜索每个 layer/head/timestep 的最佳 mask pattern。论文使用 16 个 prompt 来平均 mask-search loss，并且在前 $T_0$ 个 diffusion timesteps 保留 full attention，后续步骤再使用 STA。

Algorithm 1：STA Mask Search

步骤	操作
输入	Transformer model $M$ ，总步数 $T$ ，mask pattern list $\mathcal{P}$ ，前 $T_0$ 步保留 full attention
初始化	创建字典，用于记录每个 timestep/layer/head 的最佳 mask pattern
遍历 timestep	对 $t=T_0+1$ 到 $T$ 逐步搜索
遍历 head	对每个 layer-head 组合 $(l, h)$ ，取原 full attention 输出 $O$
遍历 pattern	对每个候选 pattern $p$ ，得到 mask 后输出 $O^{'}$
选择	用 $M S E (O, O^{'})$ 选择损失最小的 pattern
输出	返回每个 $(t, l, h)$ 对应的最佳 pattern 字典

第二条是 finetuning。作者认为，如果想使用更激进的稀疏率，可以固定窗口并微调模型，使它适应 STA。论文使用三类 loss。

attention distillation loss 用于让稀疏 attention 的中间输出对齐原 dense attention teacher：

公式（5）：

$\mathcal{L}_{\mathrm{attn}}= \frac{1}{N} \sum_{i=1}^{N} \left\| f_{\phi}^{(i)}(x_t,t,c)- f_{\psi}^{(i)}(x_t,t,c) \right\|_2^2$

final layer loss 用于对齐 student 与 teacher 的最终输出：

公式（6）：

$\mathcal{L}_{\mathrm{final}}= \left\| f_{\phi}(x_t,t,c)- f_{\psi}(x_t,t,c) \right\|_2^2$

data loss 使用 flow matching 形式：

公式（7）：

$\mathcal{L}_{\mathrm{data}}= \left\| (f-x_0)-f_{\phi}(x_t,t,c) \right\|_2^2$

最终目标函数为：

公式（8）：

$\min_{\phi} \mathbb{E}_{x\sim p(x),\;c\sim N(0,1),\;t} \left[ \alpha\mathcal{L}_{\mathrm{data}} +\beta\mathcal{L}_{\mathrm{final}} +\gamma\mathcal{L}_{\mathrm{attn}} \right]$

训练细节也值得注意：论文使用 2,000 个 HunyuanVideo 合成视频，分辨率为 $1280\times768$ ，117 帧；预先计算 VAE latents 和 text encoder states；微调 1,600 steps，batch size 2，learning rate $2e^{-5}$ ；在 8 张 H100 上训练约 8 小时。这个成本和视频大模型预训练相比很小，但仍然意味着 finetuning 方案并不是零成本部署。

在这里插入图片描述

图 6 展示了同一个 prompt 下 HunyuanVideo、training-free STA、finetuned STA 和 $\Delta$ -DiT 的输出对比。论文的判断是：STA-t-2.43x 微调后会引入轻微输出分布变化，但总体质量仍然保持； $\Delta$ -DiT 的结果通常更不清晰。这类 qualitative 图不是严格证明，但能帮助读者理解为什么论文后面更重视 human evaluation，而不是只看 PSNR/SSIM。

实验与证据：结果能支撑到什么程度

论文实验主要回答三个问题：STA 的 kernel 到底快不快？端到端视频生成质量能不能保住？如果放到更细粒度 benchmark 和其他任务上，趋势是否一致？

1. Kernel 性能：STA 把稀疏真正转成了速度

表 2 是论文最硬的系统证据。实验设置对齐 HunyuanVideo 推理：bf16、720P、5 秒、115.2K sequence length、 $d_{head}=128$ 、24 heads。

表 2：稀疏 attention kernel 的 forward speed

Methods	Implementation	Config	Sparsity	TFLOPS	Latency(ms)	MFU	Kernel Efficiency	Speedup
FA 3	ThunderKittens	-	0.00%	164.03	265.28	62.49%	100.00%	1.00x
FA 3	CUDA	-	0.00%	164.03	256.59	64.61%	103.39%	1.03x
CLEAR	FlexAttention	r=16	90.46%	15.65	307.44	5.15%	8.24%	0.86x
NATTEN	FlexAttention	w=(19,25,25)	89.69%	16.91	313.92	5.44%	8.71%	0.85x
Tiled NATTEN	CUDA	w=(19,25,25)	89.69%	16.91	458.36	3.73%	5.97%	0.58x
Tiled NATTEN	FlexAttention	w=(19,25,25)	89.69%	16.91	208.36	8.20%	13.12%	1.27x
Swin	FlexAttention	w=(24,32,32)	87.42%	20.64	47.90	43.55%	69.69%	5.54x
STA	FlexAttention	w=(18,24,24)	91.00%	14.76	36.36	41.03%	65.66%	7.30x
STA	ThunderKittens	w=(30,40,40)	58.33%	68.35	111.73	61.82%	98.93%	2.37x
STA	ThunderKittens	w=(18,24,24)	91.00%	14.76	25.38	58.79%	94.09%	10.45x

表 2 里最值得注意的不是 STA 比 FA3 快，而是 CLEAR/NATTEN 在 90% 左右 sparsity 下反而慢于 baseline。这说明在高维视频注意力里，“稀疏率”本身不是充分指标。稀疏结构是否变成 dense/empty block，是否降低 mask overhead，是否保持 MFU，才是系统性能的核心。

STA 的 ThunderKittens 版本在 91% sparsity 下达到 25.38ms latency、58.79% MFU、10.45x speedup。这个结果支撑了论文最核心的 claim：STA 是一种高维 sliding-window-like attention，但它不像传统 SWA 那样被 mixed blocks 拖垮。

2. Human evaluation：速度提升是否伤害视频质量

视频生成质量很难完全用自动指标衡量。论文采用 MovieGen Bench 的 200 个 prompt 做 pairwise human evaluation，比较 HunyuanVideo、STA-tf-1.89x、STA-t-2.43x、 $\Delta$ -DiT-1.36x 和 $\Delta$ -DiT-1.8x。

在这里插入图片描述

图 7 的结果比较清晰：

比较	STA Win	Tie	STA Loss
STA-tf-1.89x vs HunyuanVideo	5.0%	83.0%	12.0%
STA-tf-1.89x vs $\Delta$ -DiT-1.36x	66.5%	23.5%	10.0%
STA-t-2.43x vs $\Delta$ -DiT-1.8x	70.0%	19.0%	11.0%

和原始 HunyuanVideo 比，STA-tf-1.89x 的 tie rate 为 83%，说明多数情况下人类评估者认为质量接近。虽然它的 win rate 比 loss rate 低 7 个百分点，但换来 1.89x 端到端速度提升。和 $\Delta$ -DiT 比，STA 的优势更明显：training-free STA 在更高速度下仍获得 66.5% win rate，finetuned STA 也以 70.0% 对 11.0% 明显优于 $\Delta$ -DiT。

这组结果的证据强度是：STA 不只是 kernel 快，也没有在主观质量上显著崩掉。但它还不能证明 STA 对所有视频生成模型、所有 prompt 类型都无损，因为评估集中在 HunyuanVideo 与 MovieGen Bench。

3. Training-free：不训练时能走多远

表 3 比较 training-free STA 与 $\Delta$ -DiT 在不同 sampling steps 下的表现。参考对象是相同步数下的 HunyuanVideo 输出，因此 SSIM/PSNR/CD-FVD 更像是在衡量“相对原模型输出的保真度”。

表 3：不同 sampling steps 下的 training-free 性能

Model	SSIM ↑	PSNR ↑	CD-FVD ↓	Latency	Speedup
$\Delta$ -DiT, steps=50	72.86	18.09	122.74	693s	1.36x
STA, steps=50	87.67	28.76	66.12	501s	1.89x
$\Delta$ -DiT, steps=25	77.91	19.86	196.25	352s	1.34x
STA, steps=25	88.96	28.99	76.34	250s	1.89x
$\Delta$ -DiT, steps=10	83.19	21.20	201.24	144s	1.32x
STA, steps=10	87.84	27.14	84.80	105s	1.76x

这张表说明 training-free STA 在三个 step 设置下都优于 $\Delta$ -DiT。尤其在 50 steps 下，STA 的 SSIM 为 87.67，PSNR 为 28.76，CD-FVD 为 66.12，而 $\Delta$ -DiT 分别是 72.86、18.09、122.74。更重要的是，STA 的 latency 也更低。

Rocky 的解读是： $\Delta$ -DiT 这类缓存方法利用的是扩散过程中相邻步骤的冗余，STA 利用的是视频 token 空间-时间局部性。两者并非同一层面的冗余。STA 在少步数设置下仍保持优势，说明它不是单纯依赖扩散过程的 temporal cache，而是直接改写 attention 计算形态。

4. Finetuning：更激进 sparsity 下质量能否恢复

表 4 是端到端质量-速度 tradeoff 的核心结果。

表 4：VBench 上不同稀疏 attention pattern 的表现

Methods	Config	VBench Quality	VBench Semantic	VBench Total	Attn Sparsity	PFLOPS	Latency	Speedup
FA2	-	85.34%	72.17%	82.71%	0.00%	574.16	1496s	0.63x
FA3	-	85.34%	72.17%	82.71%	0.00%	574.16	945s	1.00x
CLEAR, w.o training	r=32	84.41%	74.20%	82.37%	56.23%	280.90	2567s	0.37x
Tiled NATTEN, w.o training	w=(30,41,41)	84.61%	75.00%	82.69%	58.33%	269.92	1858s	0.51x
Swin, w.o training	w=(48,64,64)	80.91%	71.35%	79.00%	55.81%	283.11	762s	1.24x
Swin, w.o training	w=(30,40,40)	78.84%	72.28%	77.53%	76.49%	175.20	497s	1.90x
STA, w.o training	w=(30,40,40)	84.63%	73.83%	82.46%	58.33%	269.92	527s	1.79x
STA, w.o training	w=(18,24,24)	81.47%	77.03%	80.58%	91.00%	99.54	268s	3.53x
Swin, w. training	w=(30,40,40)	77.50%	67.39%	75.48%	55.81%	283.08	497s	1.90x
STA, w. training	w=(30,24,40)	85.37%	73.52%	83.00%	75.00%	182.99	388s	2.44x
STA, w. training	w=(18,24,24)	84.76%	74.05%	82.62%	91.00%	99.54	268s	3.53x

这张表里有几个关键结论。

第一，CLEAR 和 Tiled NATTEN 的质量还可以，但速度很差。它们降低了 PFLOPS，却因为实现形态不友好导致实际 latency 变高。这个结果再次说明：视频生成加速不能只看稀疏率和 FLOPs。

第二，Swin 可以带来速度，但质量明显下降。原因是 Swin 的非重叠窗口会破坏局部连续性，某些本来相邻的 token 因为落在不同窗口里无法直接 attend。对于视频 DiT，这会损害 3D locality 的表达。

第三，STA 在质量和速度之间更平衡。training-free 的 STA w=(30,40,40) 达到 1.79x speedup，VBench Total 为 82.46%，接近 FA3 的 82.71%。更激进的 w=(18,24,24) 达到 3.53x speedup，但 training-free 总分降到 80.58%。经过 finetuning 后，同样 w=(18,24,24) 的总分回到 82.62%，几乎贴近原始 82.71%，同时 latency 仍为 268s。

这说明 STA 的稀疏结构并非简单剪枝，而是模型可以适应的结构性约束。

5. 跨模型与跨任务补充

论文还补充了 Wan 2.1 和 FLUX image super-resolution 结果。

表 5：Wan 2.1 上的 training-free 性能

Model	SSIM ↑	PSNR ↑	Latency	Speedup
STA	85.81	24.42	730s	1.60x

Wan 2.1 的视频长度较短，因此端到端 speedup 比 HunyuanVideo 低，但结果说明 STA 并不只绑定于单一模型。

表 6：FLUX 图像超分辨率结果

Methods	SSIM	PSNR	Sparsity	Latency	Speedup
CLEAR r=16, 1K→2K	0.9291	28.1142	96.12%	13s	1.54x
CLEAR r=32, 1K→2K	0.9443	29.6722	85.94%	15s	1.33x
STA w=(48,72), 1K→2K	0.9357	29.1086	81.25%	14s	1.43x
CLEAR r=16, 2K→4K	0.9394	29.0463	98.98%	67s	2.90x
CLEAR r=32, 2K→4K	0.9455	30.0742	96.08%	92s	2.11x
STA w=(48,72), 2K→4K	0.9470	30.1939	95.31%	57s	3.40x

在 2K→4K 超分辨率场景里，STA 的 SSIM/PSNR 与 CLEAR 相当甚至略好，同时 latency 更低。这个结果表明 STA 的 tile-level locality 不只适用于视频，也能迁移到高分辨率 2D 图像任务。

进一步证据：附录里的细节为什么重要

1. 更低 sparsity 下，结论仍然成立

表 7 在约 56% sparsity 下比较 sparse kernels。虽然 sparsity 降低后各方法 MFU 会有变化，但 STA 的系统优势仍然明显。

表 7：H100 上约 56% sparsity 的 sparse attention speedup

Methods	Implementation	Config	Sparsity	TFLOPS	Latency(ms)	MFU	Kernel Efficiency	Speedup
FA 3	ThunderKittens	-	0.00%	164.03	265.28	62.49%	100.00%	1.00x
FA 3	CUDA	-	0.00%	164.03	256.59	64.61%	103.39%	1.03x
CLEAR	FlexAttention	r=32	56.23%	71.80	675.05	10.75%	17.20%	0.39x
NATTEN	FlexAttention	w=(30,41,41)	56.22%	71.81	804.62	9.02%	14.43%	0.33x
Tiled NATTEN	CUDA	w=(29,41,41)	57.68%	69.41	173.57	4.04%	6.47%	0.15x
Tiled NATTEN	FlexAttention	w=(30,41,41)	56.22%	71.81	409.89	17.70%	28.33%	0.65x
Swin	FlexAttention	w=(48,64,64)	55.81%	72.49	127.51	57.46%	91.95%	2.08x
STA	FlexAttention	w=(30,40,40)	58.33%	68.35	174.17	39.66%	63.46%	1.52x
STA	ThunderKittens	w=(30,40,40)	58.33%	68.35	111.73	61.82%	98.93%	2.37x

这一组数字强化了一个判断：STA 的价值不是只能在极端高 sparsity 下体现；只要稀疏模式能被表达成硬件友好的块结构，它在中等 sparsity 下依然能保持较高 kernel efficiency。

2. Sequence reordering 与 2D SWA 对照

附录还补充了 STA 的 token reordering。它不是随便把 token 分组，而是让同一 tile 内 token 在一维序列里保持连续，从而让 tile-to-tile attention 变成 dense block。

在这里插入图片描述

图 8 说明，传统 flattening 会让空间邻近 token 在序列上不一定连续；STA 则通过 tile-based ordering 保持邻近 token 的连续编号。这个细节看似工程化，其实是 STA 能落到 FlashAttention block 结构里的必要条件。

在这里插入图片描述

图 9 作为对照，展示了普通 2D SWA 是 token-by-token 滑动。每个 query 的窗口不同，所以天然更容易产生 irregular mask。STA 的 tile-by-tile 滑动正是在绕开这一点。

3. 更完整的 qualitative 对比

在这里插入图片描述

图 10 和图 11 补充了更多 prompt 下的可视化比较。它们主要支持一个结论：STA 微调后可能改变具体采样结果，但总体视觉质量、清晰度和结构稳定性仍然比 $\Delta$ -DiT 更接近原始 HunyuanVideo。需要注意的是，qualitative 图只能作为感性证据，不能替代大规模用户评估或自动指标。

4. VBench 细项：质量损失发生在哪里

表 8 和表 9 是 VBench 细项结果。它们解释了一个更细的问题：当稀疏率提高时，哪些质量维度受影响，哪些维度反而可能改善。

表 8：VBench 细项结果 Part 1

Model	Appearance Style	Subject Consistency	Background Consistency	Temporal Flickering	Motion Smoothness	Dynamic Degree	Aesthetic Quality	Imaging Quality	Overall Consistency
FA3	18.43%	94.22%	96.74%	99.21%	99.15%	75.00%	64.63%	67.97%	25.96%
CLEAR, w.o training	18.73%	93.63%	96.51%	98.99%	99.01%	68.06%	63.75%	68.35%	26.23%
Tiled NATTEN, w.o training	18.79%	94.59%	96.61%	98.75%	98.85%	70.83%	63.79%	68.16%	26.53%
Swin w=(48,64,64), w.o training	20.85%	91.74%	95.48%	98.67%	97.77%	77.78%	51.01%	62.22%	25.27%
Swin w=(30,40,40), w.o training	20.62%	90.33%	93.09%	98.78%	96.53%	75.00%	48.10%	61.89%	25.62%
STA w=(30,40,40), w.o training	18.79%	94.75%	96.50%	98.82%	98.83%	69.44%	64.18%	68.39%	26.47%
STA w=(18,24,24), w.o training	21.25%	89.66%	91.64%	98.46%	97.27%	83.33%	59.75%	64.23%	26.61%
Swin w=(30,40,40), w. training	20.07%	89.78%	94.93%	98.86%	96.64%	70.83%	44.91%	55.99%	26.00%
STA w=(30,24,40), w. training	18.90%	94.90%	97.60%	99.68%	99.23%	73.61%	63.77%	66.21%	26.58%
STA w=(18,24,24), w. training	18.90%	94.64%	96.76%	99.22%	99.11%	69.44%	64.52%	66.67%	26.09%

表 9：VBench 细项结果 Part 2

Model	Object Classification	Multiple Objects	Human Action	Color	Spatial Relationship	Scene	Quality Score	Semantic Score	Final Score
FA3	85.76%	70.12%	90.00%	88.66%	71.28%	35.25%	85.34%	72.17%	82.71%
CLEAR, w.o training	88.13%	77.97%	88.00%	91.10%	77.49%	32.85%	84.41%	74.20%	82.37%
Tiled NATTEN, w.o training	83.54%	72.18%	94.00%	92.28%	81.21%	37.94%	84.61%	75.00%	82.69%
Swin w=(48,64,64), w.o training	78.16%	58.54%	87.00%	93.68%	77.45%	37.79%	80.91%	71.35%	79.00%
Swin w=(30,40,40), w.o training	79.19%	60.44%	88.00%	93.68%	77.24%	35.54%	78.84%	72.28%	77.53%
STA w=(30,40,40), w.o training	80.54%	71.19%	93.00%	89.81%	79.25%	36.77%	84.63%	73.83%	82.47%
STA w=(18,24,24), w.o training	88.13%	75.46%	91.00%	91.61%	82.52%	42.15%	81.47%	77.03%	80.58%
Swin w=(30,40,40), w. training	77.14%	48.86%	73.00%	87.00%	63.38%	39.03%	77.50%	67.39%	75.48%
STA w=(30,24,40), w. training	91.77%	68.45%	86.00%	89.59%	72.76%	39.53%	85.37%	73.52%	83.00%
STA w=(18,24,24), w. training	92.96%	74.16%	93.00%	84.50%	73.41%	38.23%	84.76%	74.05%	82.62%

这些细项有一个值得玩味的现象：在更高 sparsity 下，一些语义相关维度，例如 Appearance Style、Color、Spatial Relationship，可能上升；而一些低层视觉质量维度，如 Subject Consistency、Background Consistency、Imaging Quality，可能下降。论文解释认为，当时空 attention 被稀疏化后，文本 embedding 的作用相对增强，因此语义对齐维度可能受益，但局部视觉细节可能更脆弱。

这提醒我们，视频生成加速不能只看总分。一个方法如果让语义更贴 prompt，但牺牲画面稳定性，产品体验未必更好；反之，如果视觉质量稳定但语义响应变弱，也会影响创作可控性。STA 的 finetuning 价值，就在于试图把低层视觉质量拉回来，同时保留速度收益。

这篇工作的边界与可复现性

这篇论文的结论很有启发，但不能无条件外推。

第一，核心实验集中在 HunyuanVideo。论文补充了 Wan 2.1 和 FLUX 超分结果，但最完整的端到端视频质量、人工评估和 kernel benchmark 都围绕 HunyuanVideo 展开。STA 的思路高度依赖视频 DiT 中存在稳定的 3D locality。如果某些模型架构、训练数据或 attention 机制导致局部性更弱，STA 的窗口搜索和质量保持可能需要重新验证。

第二，training-free 版本不是完全无代价。它需要 profiling，并且需要保存每个 timestep/layer/head 的 mask pattern。这个成本比重新训练低很多，但对生产部署来说仍然要纳入工程流程。尤其在多分辨率、多帧数、多模型版本并行时，mask pattern 的迁移性需要验证。

第三，finetuning 版本需要 8 H100、约 8 小时的训练资源。相对预训练很小，但对普通团队不是零成本。更重要的是，微调会引入输出分布变化。论文认为这些变化不显著影响质量，但在某些需要稳定复现的商业工作流里，输出分布变化本身可能需要产品侧评估。

第四，论文强调 wall-clock latency，但端到端生成系统还包含 VAE、text encoder、调度器、IO、并发服务等部分。STA 主要解决 DiT attention 瓶颈。随着 attention 被加速，其他模块会成为新的瓶颈。这是所有系统优化都会遇到的“瓶颈迁移”问题。

第五，代码公开是一个好信号，但高性能 kernel 的复现通常受硬件、CUDA/Triton/ThunderKittens 版本、编译参数、GPU 架构影响。论文中 H100 上的结果不能直接等价于消费级 GPU 或云端异构环境的表现。

如果继续研究/落地，应该关注什么

Rocky 认为，这篇工作后续最值得看的不是“STA 能不能再快一点”，而是它能否成为视频生成系统里的可组合基础模块。

第一，STA 与 step reduction 方法是互补关系。采样步数减少、consistency distillation、adversarial distillation 解决的是 diffusion trajectory 的长度问题；STA 解决的是每一步 DiT attention 的计算形态问题。如果两者组合，才可能把高质量视频生成从分钟级进一步推向更可用的秒级体验。

第二，STA 与 cache 方法也可能互补。 $\Delta$ -DiT 利用跨 timestep 的特征冗余，STA 利用单步 attention 的时空局部性。它们作用在不同冗余来源上。真正的生产级视频生成加速，很可能不是单一方法胜出，而是 step reduction、cache、sparse attention、quantization、并行推理共同组成 pipeline。

第三，STA 对模型设计会产生反向影响。如果视频 DiT 的注意力天然具有 3D locality，那么未来模型预训练时是否可以显式鼓励 tile-friendly locality？是否可以训练时就引入 hardware-aware sparse pattern，而不是推理时再替换？这会把 STA 从 inference patch 推向 architecture prior。

第四，STA 的思想可能扩展到多模态 long-context。视频只是最典型的三维冗余场景。图像超分、长文档视觉理解、具身智能中的时空观测流，都可能存在局部结构。关键问题不是“能否稀疏”，而是“稀疏之后的计算形态是否能被硬件高效执行”。

第五，产品层面要关注质量损失的类型。对于生成视频产品，用户不只关心 benchmark 总分，还关心人物是否稳定、运动是否自然、细节是否糊、prompt 是否可控、不同批次输出是否一致。STA 在人工评估中表现不错，但落地时仍要按具体场景做质量回归。

术语与概念速查

概念	解释
DiT	Diffusion Transformer，用 Transformer 作为扩散模型主干，视频场景中常用 3D attention 建模时空 token
3D full attention	将视频 latent 中的时间、高度、宽度 token 拉平成统一序列，每个 token attend 到所有 token
Attention locality	query 的 attention score 主要集中在空间和时间邻近 key 上
Attention recall	局部窗口内 attention score 占总 attention score 的比例
Head specialization	不同 attention head 对窗口大小、局部范围有不同偏好，并且这种偏好跨 prompt 相对稳定
SWA	Sliding Window Attention，每个 query 只 attend 到附近窗口内的 key
Mixed block	attention block 内部分位置有效、部分位置被 mask，GPU 上通常不高效
Dense block	block 内位置全部有效，可以高效执行 dense attention
Empty block	block 内位置全部无效，可以整块跳过
STA	Sliding Tile Attention，把滑动单位从 token 改成 tile，让 tile-to-tile attention 形成 dense blocks
MFU	Model FLOPs Utilization，衡量实际计算吞吐接近理论峰值的程度
Kernel efficiency	论文中定义为 sparse kernel 的 MFU 与 full attention MFU 的比值
Training-free STA	不重新训练模型，仅通过 profiling 为不同 head 搜索窗口配置
Finetuned STA	固定高 sparsity 窗口后微调模型，使稀疏 attention 适配原模型行为

拓展思考：值得继续扩展研究与思考的创新点

1. AI 加速的核心不是少算，而是让硬件真的少做无效工作

这篇论文最重要的启发，是把“理论稀疏”和“硬件稀疏”区分开。CLEAR、NATTEN 的问题并不是不懂局部性，而是局部性落到 GPU 上之后变成了复杂 mask 和 mixed blocks。STA 的创新点在于，它没有停在算法层，而是重新设计了计算粒度，让稀疏结构天然符合 FlashAttention 的块级执行范式。

这对今天很多 AI Infra 工作都有启发。模型越来越大，算力越来越贵，未来真正有价值的优化不是写一个漂亮复杂度，而是让模型结构、数据布局、kernel 调度和硬件内存层级相互配合。

2. 视频生成的“实时化”会从模型能力竞争转向系统能力竞争

过去一年，视频生成的主战场是质量：清晰度、运动、时长、prompt adherence。下一阶段，速度会变成产品竞争力。一个 5 秒 720P 视频如果要 15 分钟，哪怕质量再好，也很难进入高频创作工作流；如果能降到几分钟甚至几十秒，产品形态会完全不同。

STA 这类工作说明，视频生成实时化不只靠更小模型，也靠系统级压榨。未来的可用视频生成产品，大概率不是单个模型突破，而是模型结构、推理引擎、cache、并行、量化、蒸馏、稀疏 attention 共同作用。

3. 结构性先验正在重新回到大模型工程

Transformer 的一个历史优势是弱先验：给足数据和算力，模型自己学结构。但视频生成进入高分辨率、长时长后，完全依赖 full attention 的成本太高。STA 利用的是视频天然局部性，这本质上是一种结构先验。

Rocky 认为，未来多模态模型不会简单回到 CNN 时代的手工结构，但会越来越多使用“可学习能力 + 系统友好先验”的折中设计。局部性、层级性、时空连续性、物理一致性，都会重新成为模型系统设计的一部分。

4. 从论文到产品，还差质量回归体系

这篇论文有 VBench、human evaluation、qualitative examples，但真正产品落地仍然需要更细的质量回归体系。比如人物视频、商品视频、影视镜头、广告短片、游戏资产生成，对质量损失的容忍点完全不同。某些场景宁愿慢一点，也不能接受人物脸部漂移；某些场景则更看重 prompt 响应与批量吞吐。

所以 STA 的商业价值不只是“加速 3.53x”，而是它给产品团队提供了一个可调节旋钮：窗口大小、是否微调、是否 training-free、在哪些 timesteps 保留 full attention。产品可以按质量成本曲线选择不同档位。

5. 这类工作会成为开源视频模型生态的基础设施

论文公开代码库 FastVideo，这一点很重要。对开源视频模型生态来说，推理速度常常比模型参数本身更制约采用。一个模型如果只能在高端 GPU 上慢速生成，很难形成开发者生态；如果推理栈能把 latency 降下来，二次开发、插件化应用、创意工具、Agent 视频生成工作流才会活跃。

从这个角度看，STA 不只是一个 attention 论文，也是一块视频生成基础设施拼图。它未必会以原样成为最终标准，但“把视频 attention 的局部性转译为硬件友好块结构”这个方向，有较强跨周期价值。

最后总结

《Fast Video Generation with Sliding Tile Attention》真正解决的问题，不是“视频 attention 能不能稀疏”，而是“视频 attention 的稀疏性能不能被 GPU 真正吃进去”。论文用 HunyuanVideo 的注意力可视化证明了 3D locality，用 mixed block 分析解释了传统 SWA 的低效，用 tile-level sliding 把稀疏结构变成 dense/empty block，再用 kernel 实现把它转化成实际延迟下降。

Rocky 认为，这篇论文的本质价值在于：它把模型行为、算法结构和硬件执行统一到一个闭环里。它提醒我们，AIGC 的下一阶段不是只比谁模型更大、demo 更炫，而是比谁能把模型能力稳定、低成本、可规模化地变成产品体验。STA 不是视频生成加速的终点，但它给出了一个很清晰的方向：未来有价值的 AI 系统创新，一定会同时理解模型、数据、硬件和产品约束。