高光谱语义分割前沿：从CNN到Transformer的深度学习架构演进

最新推荐文章于 2026-06-26 22:53:38 发布

原创

最新推荐文章于 2026-06-26 22:53:38 发布 · 456 阅读

标签

#高光谱 #语义分割 #深度学习 #Transformer

1. 从“像素点”到“语义地图”：高光谱分割到底在做什么？

如果你玩过无人机航拍，或者看过卫星地图，可能会好奇，那些花花绿绿的图片是怎么区分出森林、农田、城市和河流的？更进一步，农业专家怎么从一张图里看出哪片庄稼缺水、哪片有病虫害？这背后，高光谱图像语义分割技术就是那个“火眼金睛”。

简单来说，普通相机（RGB相机）拍照，每个像素点只记录红、绿、蓝三个通道的信息，就像我们人眼看到的世界。而高光谱成像仪厉害多了，它像一个超级敏感的“光谱扫描仪”，能把一个像素点分解成几十甚至几百个连续、精细的光谱波段。想象一下，你面前放着一杯水、一杯茶和一杯咖啡，在普通相机里它们可能都是深色液体，但在高光谱“眼”里，它们各自的光谱曲线就像指纹一样独一无二。高光谱语义分割的任务，就是给图像中的每一个像素点都打上正确的“身份标签”（比如“玉米”、“小麦”、“水体”、“建筑”），最终生成一张按类别着色的“语义地图”。

这个任务为什么难？难点就在于数据的“三高”：高维度（几百个光谱通道）、高冗余（相邻波段信息高度相似）、高计算成本。早期的传统方法，比如支持向量机（SVM），处理起来非常吃力，效果也有限。深度学习的出现，尤其是卷积神经网络（CNN），彻底改变了游戏规则，让机器能自动从海量数据中学习到强大的光谱和空间特征。而近几年，Transformer架构的横空出世，又给这个领域带来了新的冲击和可能性。今天，我就结合自己这些年折腾数据的经验，带你捋一捋这个技术是怎么从CNN一路“卷”到Transformer的，中间有哪些经典的网络模型，它们各自有什么绝活，又有哪些坑。

2. 奠基者CNN：如何“看懂”光谱与空间的纹理？

CNN可以说是高光谱分割领域的“开国元勋”。它的核心思想很直观：用一个个小窗口（卷积核）在图像上滑动，局部地提取特征。对于高光谱图像，研究者们主要沿着三条路线演进：光谱CNN、空间CNN和光谱-空间CNN。

2.1 光谱CNN：先给每个像素“验明正身”

最初的想法很直接：既然每个像素都有几百个光谱值，那就先把每个像素点当成一个一维向量，用一维卷积核沿着光谱维度进行卷积。这相当于只关注“这个点是什么”，而不关心它周围邻居的情况。

我最早尝试这类模型时，感觉就像让模型去死记硬背每个物质的光谱曲线。优点是模型简单、训练快，对于光谱特征非常独特的类别（比如某种特定矿物）效果不错。但问题也很明显：它完全忽略了空间上下文信息。在真实场景中，一个孤立的“小麦”像素点，周围很可能也是小麦，而不是突然冒出来的水泥地。忽略这种空间关联性，分类结果就会显得“噪点”很多，一块田地被分割得零零碎碎。