GMBFormer：用于超高分辨率影像城市绿地提取的NDVI引导全局记忆库Transformer

原创于 2026-06-25 06:17:20 发布 · 227 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#transformer #深度学习 #人工智能

大家读完觉得有帮助记得关注和点赞！！！

摘要从超高分辨率（UHR）影像中提取城市绿地通常采用逐块处理的方式，这限制了空间分离但视觉相似的植被模式之间的语义重用。直接将归一化植被指数（NDVI）注入红-绿-蓝（RGB）主干网络也可能模糊视觉外观学习与物理植被置信度之间的角色。我们提出GMBFormer，一个基于SegFormer的框架，用选择性、相似性驱动的原型检索替代邻域驱动的特征传播。只有RGB通道进入主干网络和解码器，而NDVI被解耦为物理引导门，通过动量更新将高置信度的植被描述符准入到一个紧凑的全局记忆库中。在训练和推理期间，当前块通过记忆介导的交叉注意力查询存储的原型，检索到的响应以有限的开销集成。实验使用自建的成都UHR数据集（包含7,700个标注的512×512块）以及从公共国际摄影测量与遥感学会（ISPRS）Potsdam数据集衍生的两个简化标签设置。在相同的训练和评估协议下，GMBFormer分别获得了89.25%/94.31%、92.17%/95.92%和83.72%/90.86%的平均交并比（mIoU）/平均Dice系数（mDice），在每个设置中都优于受控的SegFormer-B4基线。消融研究表明，解耦的NDVI准入、记忆检索、容量和动量共同塑造了最终性能。

关键词：城市绿地提取，超高分辨率遥感，全局记忆库，NDVI引导的记忆准入，跨块原型检索，语义分割

1. 引言

城市绿地通过调节温度、管理雨水和维持生物多样性，支持生态评估、规划和公共健康[Bertram2015, Kondo2018, Huang2025]。超高分辨率（UHR）遥感影像能够对这些空间进行细粒度制图，但其空间细节也使分割模型面临植被边界碎片化、阴影、类绿色人工表面以及强烈的类内变异性[Derkzen2015]。

从卷积神经网络（CNN）[Long2015, Ronneberger2015, Chen2018]到Transformer及最近的状态空间模型[Dosovitskiy2021, Liu2021, GuDao2024, Liu2024VMamba, Chen2024RSMamba]，深度分割模型已经改进了遥感解译能力。SegFormer [Xie2021]尤其提供了层次化表示与效率之间的良好平衡。然而，UHR制图仍然通常在裁剪的块上进行训练和推理：一旦一个块被处理，其特征证据就被丢弃，其他地方相似的绿地模式只能通过共享权重隐式地回忆。这是有局限性的，因为城市绿化可能以庭院、路边条带、紧凑的树冠或大型公园的形式出现在不连续的块中。在一个块内扩大感受野无法恢复该块中缺失但在其他地方语义重复的植被证据。

这种逐块的形式带来了三个困难。首先，跨块的空间连续性被打破，滑动窗口传播可能传递误导性的上下文，因为邻域并不意味语义相似性。其次，城市植被在光照、冠层结构、物候和尺度上变化，而阴影和类绿色不透水面常常造成混淆[Huang2025]。第三，归一化植被指数（NDVI）提供了物理植被证据，但与红-绿-蓝（RGB）影像的直接拼接、多模态融合或特征级交互[Sa2018, Diakogiannis2020, Zhou2022a, Huang2025]可能将RGB外观学习与植被置信度估计纠缠在一起。

为了解决这些问题，我们提出了GMBFormer（全局记忆库增强的Transformer），它将部分学习到的植被知识外化到一个紧凑的、可查询的记忆中。在记忆写入过程中，NDVI与主干网络优化解耦，仅用作高置信度绿地原型的物理引导准入门。在记忆读取过程中，当前RGB派生的特征通过交叉注意力查询存储的原型，因此增强是由语义相似性而非块邻域驱动的。记忆具有固定容量，并在推理时冻结，保持检索的显式性和有限性。

本工作的主要贡献总结如下：

我们引入了一个NDVI引导的全局记忆库用于跨块语义重用，使用NDVI仅用于质量控制的记忆准入，同时保持RGB表示学习和解码不变。
我们设计了一个记忆介导的交叉注意力模块，让每个块通过语义相似性检索植被原型，改善了非连续绿地的识别，而无需显式的块间通信。
我们在自建的成都UHR数据集和两个简化标签的ISPRS Potsdam设置上验证了GMBFormer；消融实验分析了准入门控、检索、记忆容量和EMA动量。

2. 相关工作

2.1 遥感影像城市绿地提取

城市绿地提取支持生态评估和可持续规划[Bertram2015, Kondo2018]。传统方法依赖于像素级分类、面向对象图像分析和手工特征光谱指数，NDVI作为长期使用的植被判别器[Myint2011, Puissant2014, Rouse1974, Tucker1979]。深度模型提高了精度，但UHR城市场景仍然困难，因为植被因物种、光照和冠层结构而变化，而阴影和深色不透水面可能模仿绿地外观[Derkzen2015, Huang2025]。这些特征使得该任务比通用的编解码器分割更具特殊性。

2.2 Transformer、状态空间模型与高效分割

基于Transformer的架构，如视觉Transformer（ViT）、Swin Transformer和SegFormer，通过长程建模和层次化表示增强了密集预测[Dosovitskiy2021, Liu2021, Xie2021]，而遥感变体如UNetFormer和DC-Swin证实了它们在高分辨率土地覆盖制图中的价值[Wang2022a, Wang2022b]。基于状态空间模型（SSM）的模型，包括Mamba、VMamba和RSMamba，进一步提高了序列建模效率[GuDao2024, Liu2024VMamba, Chen2024RSMamba]，同时辅助几何先验也被探索用于航空图像分割[Peng2023MSINet]。然而，由于内存限制，UHR影像仍然通常以裁剪块的形式处理[Ding2021LANet]。诸如GLNet、FCtL、ISDNet和WiCoNet等架构引入了全局分支、上下文检索、浅-细节蒸馏或邻域窗口注意力[Chen2019, Li2021a, Guo2022ISDNet, Ding2022]。这些策略改善了局部或相邻块的一致性，但其上下文通常局限于当前图像、下采样的场景表示或附近的窗口，而不是由非连续块查询的持久记忆。

2.3 遥感分割中植被指数的利用

NDVI为区分植被与光谱相似的非植被表面提供了物理基础的线索[Rouse1974, Tucker1979, Huang2025]。现有的深度模型通常通过通道拼接[Sa2018, Diakogiannis2020]、多模态融合[Tong2020, Zhou2022a]或特征级交互[Huang2025]注入植被指数。这些策略可以提高互补性，但它们往往将NDVI视为另一个可学习的特征，而不是将RGB外观编码与植被置信度估计分开。相关的RGB-D分割工作也表明，具有不同物理意义的模态需要仔细的交互，而不是简单的混合[Zhou2022a]。在我们的设置中，这种纠缠可能削弱预训练的RGB先验，并模糊NDVI作为物理置信度信号的角色。

2.4 基于原型和记忆的分割方法

原型和记忆方法提供了超越标准前馈提取的可重用表示。PANet、ASGNet、ProtoSeg和注意力原型推理（API）使用原型来改善类别级判别或小样本分割[Wang2019, Li2021b, Zhou2022b, Sun2023API]，但这些原型通常是图像局部或任务局部的。视频目标分割方法如STM、STCN和XMem存储历史帧特征用于基于注意力的检索[Oh2019, Cheng2021, Cheng2022]，静态分割方法也使用可学习或检索增强的记忆进行特征增强和领域泛化[Guo2023ExternalAttention, Kim2022]。然而，这些方法没有解决遥感模型应如何决定哪些RGB-NDVI块足够可靠以进入持久记忆的问题。这个准入问题在城市绿地提取中至关重要，因为如果所有特征仅通过学习到的相似性存储，模糊的阴影、混合像素或人工表面可能会污染记忆。

总之，仍然存在三个空白：UHR分割缺乏用于非连续跨块检索的全局共享语义记忆；RGB-NDVI融合常常纠缠外观和物理指数角色；现有的记忆方法很少使用领域先验来控制记忆质量。GMBFormer通过将NDVI引导的准入与基于相似性的原型检索相结合来解决这些空白。

3. 方法

3.1 总体框架

图1展示了GMBFormer的架构。四通道RGB-NDVI输入被分解为RGB流和NDVI流：RGB通道由MiT-B4主干网络处理，而NDVI与梯度优化解耦，仅用于决定哪些训练块可以写入全局记忆库（GMB）。因此，NDVI在不成为主干网络或解码器中可学习图像特征的情况下控制记忆质量。GMB在训练期间通过指数移动平均（EMA）写入高置信度的植被原型，并在训练和推理期间通过交叉注意力读取存储的原型。检索到的响应通过可学习门控融合到第3级特征中，默认原型槽位数为S=64。

图1：GMBFormer的总体架构。只有RGB被送入MiT-B4主干网络和解码器，而alpha通道中的NDVI门控训练时的记忆更新。记忆库存储S=64个第3级植被原型，通过交叉注意力检索，并在SegFormer风格解码之前融合响应。

对于输入 𝐈 = [𝐈_RGB; 𝐍] ∈ ℝ^{4×H×W}，只有 𝐈_RGB 被前向传递到主干网络：

其中 C₁=64，C₂=128，C₃=320，C₄=512。NDVI通道仅用于式(3)中的记忆准入决策；它不与RGB特征拼接，不传递给解码器，也不通过分割损失进行优化。GMB增强 𝐅^{(3)} ∈ ℝ^{C₃×H/16×W/16}（该层平衡了原型匹配的空间细节和语义抽象），增强后的特征 𝐅̃^{(3)} 在SegFormer解码器中取代 𝐅^{(3)}。

3.2 NDVI引导的记忆写入

全局记忆库 𝐌 ∈ ℝ^{S×C₃} 维护 S 个 ℓ₂ 归一化的原型向量，维度为 C₃，用于余弦匹配。它用归一化的随机高斯向量初始化，仅通过下面的动量机制更新，没有基于梯度的优化。

并非每个块都应该贡献给记忆。以非植被土地覆盖为主的块会污染绿地原型，因此每个训练块 i 的平均NDVI值被用作准入门：

其中 H_n 和 W_n 表示NDVI门控图的空间维度。因此，NDVI影响RGB派生的原型是否被写入记忆，但不提供像素级预测的空间特征。

只有当块的平均NDVI超过预定义阈值 τ_norm 时，该块才被允许更新记忆库：

对于每个准入的块，第3级特征通过全局平均池化（GAP）池化并归一化：

通过余弦相似度选择最相似的槽位：

并通过动量 α 进行EMA更新：

更新在不计算梯度的情况下执行，最终的归一化保持原型在单位超球面上。

3.3 记忆读取与门控融合

设 H₃ = H/16，W₃ = W/16。查询从 𝐅^{(3)} 投影，而键和值从记忆库投影：

对于每个头 h 和空间位置 p，记忆注意力和检索计算为：

头输出被拼接并重塑为 𝐑 ∈ ℝ^{C₃×H₃×W₃}。一个初始化为 -3 的标量门控 g 调制记忆响应：

其中 Proj(·) 是从 2C₃ 到 C₃ 的 1×1 卷积投影。由于 σ(-3) ≈ 0.05，记忆通路开始较弱，并学习检索到的信息应有多少进入解码器。

3.4 解码器、目标与复杂度

解码器遵循SegFormer [Xie2021]：{𝐅^{(1)}, 𝐅^{(2)}, 𝐅̃^{(3)}, 𝐅^{(4)}} 通过多层感知机（MLP）层投影，上采样到 H/4×W/4，拼接，融合，并分类为 K 个通道。我们使用 K=2 进行二值绿地提取，对于Potsdam设置使用 K=3（背景/低植被/树木），推理时通过双线性上采样恢复到原始分辨率。

模型通过交叉熵（CE）和Dice损失进行优化：

其中 λ=0.5。式(2)–(6)中的记忆写入仅在训练期间激活；推理时记忆库被冻结。

记忆库本身很小：对于 S=64 和 C₃=320，在float32中占用约0.08 MB。读取操作的复杂度为：

对于 512×512 输入，H₃=W₃=32，S=64，C₃=320，注意力项需要约 4.2×10⁷ 次乘加运算，Q/K/V投影和融合增加了约 5 C₃² ≈ 0.51 M 参数。

4. 实验

4.1 数据集与研究区域

图2总结了两个研究区域和样本构建。它展示了成都研究区域、绘制的绿地分布、源Google Earth镶嵌图以及代表性的二值训练样本，以及Potsdam数据集区域、源图块区域和二值/三类标签转换。

成都UHR数据集。成都数据集由77张2020年获取的Google Earth RGB镶嵌图构建，空间分辨率约为0.27米。每张源镶嵌图经过裁剪、拼接、色彩校正、重投影到WGS-84坐标系以及与Sentinel-2观测数据的时间一致性检查后，准备为4000×4000图像。使用高分辨率影像和参考数据进行人工标注；树木、草坪和自然绿地被合并为前景，非绿地区域为背景，模糊像素为忽略（255）。为避免重叠泄漏，源镶嵌图或空间块首先分配给训练或验证，然后在分配的分割内生成25%重叠的512×512裁剪块。这种“先分割后裁剪”的协议产生了7,700个标注块，包括6,160个训练和1,540个验证样本。

成都的NDVI来自Sentinel-2影像而非Google Earth RGB图像。通过Google Earth Engine为九个大的子区域分别选择了2020年的12个低云Sentinel-2观测，NDVI从近红外（NIR）和红波段计算。10米NDVI层与UHR网格对齐，双线性上采样，从[-1,1]映射到[0,255]，并存储在alpha通道中。对于GMBFormer，这个alpha通道仅作为记忆准入门，绝不进入RGB特征学习、解码器融合或分割损失。这保持了RGB外观和NDVI置信度的分离，尽管10米到UHR的不匹配可能会引入混合像素不确定性。

图2：成都和ISPRS Potsdam数据集的研究区域和代表性样本，包括“先分割后裁剪”生成后的成都源镶嵌图和二值标签，以及具有二值和三类标签转换的Potsdam源图块。

ISPRS Potsdam数据集。我们还在ISPRS 2D语义标注Potsdam数据集上进行了评估，该数据集包含38张地面采样距离为5厘米的正射真彩色图块，具有RGB和NIR通道[Rottensteiner2012, Rottensteiner2014]。每个图块大小为6000×6000像素；按照标准划分，24个图块用于训练，14个用于测试。我们为绿地提取构建了两个简化标签设置：一个二值设置，将低植被和树合并为绿地；以及一个三类设置，将非植被类别合并为背景，同时保留低植被和树。这些特定任务的转换旨在用于在相同标签映射下重新训练的模型之间的论文内比较，而不是与已发表的六类Potsdam结果直接比较。NDVI从NIR和红波段计算，存储为alpha通道，并与RGB图块一起裁剪成512×512块。

4.2 实现细节

所有实验在MMSegmentation 1.x [OpenMMLab2023]中实现，使用PyTorch 2.x，并在单张NVIDIA RTX 3060 GPU（12 GB内存）上训练。GMBFormer和SegFormer-B4使用带有SegFormer风格解码器的MiT-B4；Swin-UPerNet使用Swin-Base，Mask2Former使用带有Mask2Former头的ResNet-50，DeepLabV3使用带有空洞空间金字塔池化（ASPP）的ResNet-50-D8。可用时使用ImageNet预训练权重，而GMB模块从头初始化。

所有模型使用相同的数据划分、512×512裁剪大小、数据增强流程、320,000次训练迭代、32,000次迭代验证间隔和评估协议。数据增强包括随机缩放（0.5–2.0）、最多75%单类比率的随机裁剪、水平/垂直翻转和光度失真。主干网络选择遵循各方法的标准配置。受控的架构比较是GMBFormer与SegFormer-B4，它们共享MiT-B4主干网络和SegFormer风格解码器；其他方法作为来自掩码分类、层次化Transformer和卷积分割家族的代表性参考。本研究报告的所有基线结果都是在相同协议下重新训练模型获得的，对于Potsdam，使用相同的简化标签映射。GMBFormer、SegFormer-B4和Swin-UPerNet使用AdamW [Loshchilov2019]；Mask2Former遵循其标准AdamW设置，DeepLabV3使用随机梯度下降（SGD）。除非另有说明，GMBFormer使用S=64，α=0.99，τ_raw=0.2，n_h=8。NDVI阈值在原始[-1,1]尺度上报告，并通过τ_norm = (τ_raw+1)/2映射到存储的[0,1]尺度；因此τ_raw=0.2对应τ_norm=0.6。报告时使用验证mIoU最佳的检查点。

4.3 评估指标

我们报告总体精度（aAcc）、平均交并比（mIoU）、平均精度（mAcc）、平均Dice（mDice）、平均精确率（mPrecision）和平均召回率（mRecall），以mIoU为主要指标。Dice和F1分数在β=1时等价，因此F-score不作为单独列报告。忽略标签像素（255）在所有计算中被排除。对于二值设置，除非另有说明，前景IoU和Dice指的是绿地类别。对于Potsdam二值设置，报告背景和绿地的类别IoU；对于三类设置，报告背景、低植被和树木的IoU，以验证增益是否扩展到两个植被子类。

4.4 与代表性分割方法的比较

我们报告Mask2Former、Swin-UPerNet、DeepLabV3和SegFormer-B4的结果，以覆盖掩码分类、层次化Transformer解码、空洞卷积以及我们方法的RGB-only主干网络家族。由于这些方法使用不同的标准主干网络，所有方法之间的性能差异应解释为代表性方法比较；所提出的记忆设计的受控比较是GMBFormer与SegFormer-B4之间。对于Potsdam，所有方法在第4.1节描述的自定义二值或三类标签映射下重新训练；没有数字取自已发表的六类排行榜。

4.4.1 成都UHR数据集

表1报告了在成都UHR验证集上的定量比较。

表1：成都UHR验证集上的定量比较。

方法	主干网络	aAcc	mIoU	mAcc	mDice	mPrecision	mRecall
Mask2Former	ResNet-50	90.98	86.12	90.74	90.77	90.81	90.74
Swin-UPerNet	Swin-Base	92.98	87.41	92.83	92.84	92.85	92.83
DeepLabV3	ResNet-50-D8	91.78	84.50	91.59	91.59	91.59	91.59
SegFormer-B4	MiT-B4	92.99	87.40	92.71	92.83	92.98	92.71
GMBFormer (Ours)	MiT-B4	94.45	89.25	94.25	94.31	94.38	94.25

GMBFormer在所有成都验证指标上获得了最高值，mIoU从受控SegFormer-B4基线的87.40%提高到89.25%。精确率和召回率的同步提高表明，NDVI门控的记忆检索改善了基于RGB的植被判别，而不仅仅是扩大了预测的绿地前景。

图3：成都UHR二值绿地提取结果的定性比较。

图3通过展示密集建成区、碎片化植被和阴影影响区域下的二值绿地提取，补充了成都的定量结果。视觉比较说明了当单个块仅包含部分或模糊的绿地证据时，检索可靠植被原型的实际作用。

4.4.2 ISPRS Potsdam自定义二值设置

表2报告了自定义二值Potsdam评估结果，其中低植被和树合并为绿地前景，所有非植被类别视为背景。此设置镜像了成都的二值提取任务，同时引入了一个具有不同空间分辨率、传感器特征和城市形态的公共航空数据集。

表2：自定义ISPRS Potsdam二值设置上的定量比较。IoU_bg和IoU_green分别表示背景和绿地的类别IoU。

方法	主干网络	IoU_bg	IoU_green	aAcc	mIoU	mAcc	mDice	mPrecision	mRecall
Mask2Former	ResNet-50	91.86	87.37	93.35	89.62	94.86	94.46	94.11	94.86
Swin-UPerNet	Swin-Base	93.70	90.09	95.99	91.89	95.73	95.76	95.80	95.73
DeepLabV3	ResNet-50-D8	93.12	89.35	95.64	91.23	95.52	95.40	95.29	95.52
SegFormer-B4	MiT-B4	93.58	89.95	95.92	91.76	95.70	95.70	95.69	95.70
GMBFormer (Ours)	MiT-B4	93.89	90.45	96.13	92.17	95.95	95.92	95.88	95.95

在此自定义二值Potsdam设置下，GMBFormer获得了最高的mIoU（92.17%）和绿地IoU（90.45%）。跨平均和类别指标的增益表明，解耦的门控和检索设计在具有不同空间分辨率、传感器特征和城市形态的公共航空基准上仍然有效。

4.4.3 ISPRS Potsdam自定义三类设置

表3报告了自定义三类Potsdam评估结果，该设置将所有非植被类别聚合为背景，并分离低植被和树木。

表3：自定义ISPRS Potsdam三类设置上的定量比较。IoU_bg、IoU_lv和IoU_tree分别表示背景、低植被和树木的类别IoU。

方法	主干网络	IoU_bg	IoU_lv	IoU_tree	aAcc	mIoU	mAcc	mDice	mPrecision	mRecall
Mask2Former	ResNet-50	92.90	76.58	75.20	92.51	81.56	89.42	89.63	89.85	89.42
Swin-UPerNet	Swin-Base	93.74	78.61	76.43	93.20	82.93	90.46	90.48	90.49	90.46
DeepLabV3	ResNet-50-D8	89.32	74.87	73.11	89.16	79.69	86.37	86.40	86.48	86.37
SegFormer-B4	MiT-B4	93.77	79.01	77.22	93.33	83.33	90.95	90.73	90.53	90.95
GMBFormer (Ours)	MiT-B4	94.04	79.48	77.65	93.48	83.72	90.97	90.86	90.74	90.97

GMBFormer获得了最高的mIoU（83.72%），并改进了两个植被子类，IoU_lv=79.48%，IoU_tree=77.65%。这一模式与记忆库的预期作用一致：检索到的原型增强了植被结构，而不会将任务简化为二值前景-背景分离。

图4：ISPRS Potsdam二值和三类绿地提取结果的定性比较。

图4支持了两个Potsdam设置的定量结果。在二值地图中，GMBFormer更连续地沿伸了狭长植被条带和小块绿地。在三类地图中，它更好地保持了低植被和树冠之间的区分，视觉上表明检索到的原型增强了植被结构，而不会将两个子类合并为单一前景。

4.5 定性地图级分析

图5评估了实际城市制图条件下的地图级可用性。示例涵盖了公园主导的植被、路边线性绿化和密集建筑内的碎片化绿化。

图5：成都三个建成区的绿地提取地图级结果。

预测结果保持了连续的公园、狭窄的路边植被和分散的庭院绿化，表明记忆引导的检索对多种城市植被形态（而非单一场景类型）都有帮助。

4.6 消融研究

表4总结了在成都验证集上的消融研究。RGBA变体表示红-绿-蓝-阿尔法输入，NDVI存储在alpha通道中。

表4：成都验证集上的消融研究结果。

变体	S	τ_raw	α	NDVI门控	记忆库	mIoU	mDice	IoU (green)
M1 – SegFormer-B4 (仅RGB)	–	–	–	✗	✗	87.40	92.83	84.75
M2 – RGBA拼接	–	–	–	✗	✗	86.52	91.97	84.82
M3 – 无门控	64	–	0.99	✗	✓	87.37	92.82	85.64
M4 完整（Ours）	64	0.2	0.99	✓	✓	89.25	94.31	86.76
τ_raw=0.1	64	0.1	0.99	✓	✓	87.61	93.01	85.96
τ_raw=0.3	64	0.3	0.99	✓	✓	87.70	93.10	86.05
τ_raw=0.5	64	0.5	0.99	✓	✓	87.53	92.94	85.88
S=32	32	0.2	0.99	✓	✓	87.65	93.05	86.00
S=128	128	0.2	0.99	✓	✓	87.74	93.14	86.09
α=0.9	64	0.2	0.9	✓	✓	88.06	93.64	86.28
α=0.999	64	0.2	0.999	✓	✓	87.58	92.99	85.93

直接RGBA拼接（M2）相对于仅RGB基线（M1）降低了mIoU，表明仅将NDVI作为第四个可学习通道处理并不是在此设置中有效利用物理线索的方式。无门控记忆变体（M3）相对于M1提高了绿地IoU，但未提高mIoU，表明记忆检索需要准入控制以避免不平衡的原型更新。完整模型结合了NDVI引导的准入和记忆检索，将mIoU提高到89.25%，绿地IoU提高到86.76%。参数消融进一步表明，τ_raw=0.2、S=64和α=0.99提供了一个有利的工作点：更宽松或更严格的准入、更小或更大的记忆容量以及更快或更慢的EMA更新都会降低收益。

4.7 计算成本

表5：单个512×512块的计算成本比较。FLOPs表示浮点运算次数。

模型	主干网络	参数量 (M)	FLOPs (G)	推理时间 (ms/块)
DeepLabV3	ResNet-50-D8	65.74	269.81	70.10
SegFormer-B4	MiT-B4	61.37	58.57	28.35
Swin-UPerNet	Swin-Base	120.12	304.69	73.64
Mask2Former	ResNet-50	44.00	66.32	32.78
GMBFormer (Ours)	MiT-B4	61.88	58.94	28.48

如表5所示，GMBFormer在SegFormer-B4主干网络基础上只引入了很小的结构开销，参数增加了0.51M，FLOPs增加了0.37G。测量的单块延迟保持在SegFormer-B4附近（28.48 vs 28.35 ms），但这个亚毫秒差异应解释为在当前设置下可比的运行时间，而非精确的延迟估计。其计算成本仍接近SegFormer-B4，在FLOPs方面显著低于DeepLabV3和Swin-UPerNet，而之前的比较显示了有利的分割精度。Mask2Former参数更少，但在相同的单块评估设置下，其测量延迟高于GMBFormer。

5. 讨论

5.1 为什么将NDVI与主干网络解耦有效

RGBA拼接（M2）与GMBFormer（M4完整）的比较表明，对于此任务，NDVI作为记忆控制的物理先验比作为额外的可学习输入通道更有用。直接拼接扰乱了ImageNet预训练的RGB主干网络，迫使主干网络联合建模外观和植被指数分布。而GMBFormer则让RGB负责表示学习，仅使用NDVI控制记忆准入，保留了预训练的RGB先验，同时保持了NDVI作为植被置信度的生态意义。

5.2 NDVI分辨率不匹配的影响

对于成都数据集，NDVI来自10米Sentinel-2观测，然后与0.27米Google Earth影像对齐。这种跨分辨率构建无法像UHR RGB图像那样保存目标级别的植被边界，尤其是在狭窄的路边绿化、小型庭院植被和建筑物边缘附近的混合像素周围。然而，在GMBFormer中，这种不匹配仅影响记忆写入门：NDVI决定块级RGB原型是否被准入到记忆库，而所有特征提取、检索查询、解码和像素级预测仍基于RGB。因此，NDVI错位可能引入准入噪声，例如拒绝小面积的植被主导块或准入混合块，但不会直接将粗分辨率的Sentinel-2纹理注入到学习到的特征图中。使用块均值NDVI进一步使门控对局部边界配准误差不那么敏感，但代价是丢失了块内精细的植被结构。阈值和容量消融部分反映了这种权衡，更高分辨率的NIR观测或自适应置信度估计可以进一步减少门控噪声。

5.3 记忆库作为跨块的语义桥梁

记忆库将训练集的植被经验外化到一个按相似性索引的原型字典中。式(5)中的槽位分配和式(6)中的EMA更新类似于在线球形聚类，鼓励槽位代表重复出现的植被外观，而无需显式的聚类监督。在读取过程中，块通过语义相似性而非空间邻域检索原型，这在城市场景中非常重要，因为相邻的块可能包含不相关的土地覆盖类型，而视觉上相似的绿化可能出现在相距很远的地方。

5.4 在Potsdam派生设置上的泛化性

成都验证和Potsdam派生结果表明，所提出的机制不仅限于成都影像。NDVI门控降低了RGB特定干扰物进入记忆库的机会，而存储的原型旨在捕捉更高层次的植被结构，而不仅仅是局部颜色统计。当有可靠的物理指数可用时，相同的写入-门控-读取设计可以探索用于其他UHR分割任务，例如建筑物的归一化建筑指数（NDBI）或水体的归一化水指数（NDWI）。

5.5 局限性与未来工作

仍然存在几个局限性。首先，记忆库反映了训练分布，因此罕见的植被外观可能代表性不足。其次，容量S是经验性固定的，而不是根据原型利用率调整；未来的工作应量化槽位使用情况并自动调整容量。第三，当前记忆仅附加到第3级特征。第四，尽管NDVI被排除在特征学习之外，但粗分辨率NDVI可能给记忆准入带来不确定性。最后，NDVI需要NIR信息，这可能对仅RGB影像不可用；学习一个可靠的基于RGB的植被置信度替代仍然是未来的工作。

6. 结论

本研究提出了GMBFormer，用于从基于块的UHR影像中提取城市绿地。该方法将RGB表示学习与NDVI引导的记忆准入解耦，将高置信度的植被原型存储在全局记忆库中，并通过交叉注意力检索它们，以通过语义相似性而非空间邻域增强当前块特征。

在成都UHR数据集和从ISPRS Potsdam衍生的两个简化标签设置上的实验表明，相对于在相同协议下重新训练的代表性分割基线，该方法有所改进。消融研究表明，直接的RGBA拼接是不够的，无门控的记忆可靠性较低，最终性能取决于适当的准入阈值、记忆大小和EMA动量。未来的工作将探索自适应记忆容量、多尺度记忆以及在NIR派生的NDVI不可用时进行植被置信度估计。