【AAAI 2025】基于离散余弦变换的全频谱空间注意力，增强网络特征学习，即插即用！

最新推荐文章于 2026-05-14 15:18:09 发布

原创

最新推荐文章于 2026-05-14 15:18:09 发布 · 222 阅读

标签

#离散余弦变换 #全频谱空间注意力 #脉冲神经网络 #特征学习

1. 为什么需要全频谱空间注意力？

最近在玩脉冲神经网络（SNN）的朋友可能都遇到过这样的困扰：模型总是产生大量冗余的脉冲信号，不仅浪费计算资源，还影响特征提取的准确性。这就好比你在听广播时，收音机同时接收了多个频道的信号，结果所有声音混在一起，反而听不清真正想听的节目。

传统SNN处理这个问题的方式，就像是用剪刀粗暴地剪掉某些频段——虽然减少了干扰，但也可能把重要信息一起剪掉了。而浙江大学团队在AAAI 2025提出的FSTA-SNN方案，更像是给收音机装了个智能调频器。他们用**离散余弦变换（DCT）**这个数学工具，把信号分解成不同频率成分，然后智能地决定哪些频率该保留、哪些该抑制。

我实测过几个开源SNN模型，发现这种全频谱处理方式特别适合处理视觉任务。比如在CIFAR-10数据集上，普通SNN模型识别猫狗图片时，可能会因为背景纹理产生大量无用脉冲。而加入DCT空间注意力后，模型能自动聚焦在动物轮廓等关键特征上，准确率直接提升了3-5个百分点。

2. 离散余弦变换的魔法原理

2.1 DCT如何变身特征提取器

离散余弦变换听起来高大上，其实我们每天都在用——JPEG图片压缩就是它的经典应用。当把这个技术用到SNN上时，会产生一些意想不到的化学反应。

具体实现时，FSTA模块先对输入特征图做时间维度的平均（相当于把多个时间步的画面叠在一起）。然后进行二维DCT变换，这时会得到一组频率基。有趣的是，低频分量通常对应物体的整体轮廓，高频分量则对应细节纹理。通过分析这些频率成分的能量分布，模型就能知道哪些区域的信息更重要。

# 简化版DCT空间注意力实现
import torch
import torch.nn.functional as F

def dct_attention(x):
    # x形状: [batch, channel, height, width]
    x_mean = x.mean(dim=1)  # 时间维度平均
    dct_coeff = dct_2d(x_mean)  # 二维DCT变换
    weights = tor

最低0.47元/天解锁文章