Moebius：参数不到2%、推理加速超15倍，媲美100亿级别模型的轻量级图像修复框架-CSDN博客

摘要

尽管100亿级别工业基础模型拓展了图像修复的边界，但其高昂的计算成本严重阻碍了实际部署。构建高度优化的特定任务模型是一个有前景的解决方案，但极端的结构压缩不可避免地会引发严重的表征瓶颈。为克服这一问题，提出了Moebius，一个高效的轻量级图像修复框架。通过引入局部λ混合交互（LλMI）模块，系统地重构了扩散主干网络。该模块由局部λ和交互λ子模块组成，能将空间上下文和全局语义先验优雅地总结为固定大小的线性矩阵，在大幅减少参数的同时保留复杂的潜在交互。此外，为充分发挥这个高度紧凑架构的表征能力，将其与自适应多粒度蒸馏策略相结合。该策略严格在潜在空间内操作，避免了昂贵的像素空间解码，通过动态平衡多个基于梯度的损失来实现高保真对齐。在自然和人像基准测试中的大量实验表明，这种最优协同使Moebius能够媲美甚至超越100亿级别工业通用模型FLUX.1 - Fill - Dev的生成质量。值得注意的是，Moebius仅使用了不到2%的参数（0.220亿vs 119亿），同时总推理时间加速超过15倍，为高保真图像修复树立了新的效率标准。

Moebius的方法与亮点

方法

采用了配备潜在类别引导（LCG）的潜在扩散模型（LDM）框架。为实现极致的架构效率，使用提出的LλMI模块对去噪U - Net进行了系统重构（详见3.2节）。此外，在训练过程中应用了自适应多粒度蒸馏策略（3.3节），使轻量级模型与高容量的教师模型对齐，成功缓解了极端结构压缩导致的性能下降问题。

亮点

极低的参数效率（< 2%）：Moebius仅使用0.220亿（2.26亿）个参数，不到庞大的工业巨头FLUX.1 - Fill - Dev（119亿）规模的2%。它打破了高计算量的传统观念，使高质量的图像修复在消费级和边缘设备上成为可能。
15倍推理加速（每步26毫秒）：在单个GPU上实现了仅26.01毫秒/步的惊人推理延迟。结合优化的采样步骤，与100亿级别模型相比，Moebius的总运行时间加速超过15倍。
100亿级别图像修复质量（在6个基准测试中与FLUX.1 - Fill - Dev相当或超越）：模型规模的缩小并不意味着表征能力的下降。通过架构和蒸馏的协同优化，Moebius在6个综合基准测试中表现与100亿级别最先进（SOTA）的通用模型（FLUX.1 - Fill - Dev、SD3.5 Large - Inpainting）相当，在某些场景（如复杂纹理和面部合理性）中甚至超越了它们。这些基准测试涵盖了自然场景（Places2）和人像场景（CelebA - HQ、FFHQ）。
协同核心创新：
- 架构设计（LλMI模块）：通过将空间上下文和全局语义先验浓缩为固定大小的线性矩阵，重新定义了自注意力和交叉注意力机制，避免了二次计算开销。
- 自适应多粒度蒸馏策略：严格在潜在空间内将[PixelHacker](https://github.com/hustvl/PixelHacker)（教师模型）的表征能力进行迁移（避免了昂贵的像素空间解码）。该策略通过对齐多粒度监督（从微观中间特征到宏观扩散轨迹）来弥合巨大的性能差距，同时通过梯度范数自适应损失加权机制动态平衡训练过程。
- 最优协同平衡：系统地探索了紧凑结构和蒸馏之间的相互约束和上限。通过绘制这种架构 - 蒸馏协同前沿，确保0.220亿参数的Moebius（学生模型）在不引发表征饱和的情况下，吸收[PixelHacker](https://github.com/hustvl/PixelHacker)（教师模型）的最大语义推理能力。
特定任务模型优于臃肿的通用模型：Moebius没有盲目扩大模型规模，而是回答了一个基本问题：当任务明确时，模型能否更智能、更轻量、更快？它作为一个高度优化的特定任务模型，将现实世界的图像修复和AI对象移除从参数冗余中解放出来。

可视化与对比

可视化

自然场景：展示了多组自然场景的图片对比，如(image_assets/removal/erase_test_79_1_1_masked_gt.png)与(image_assets/removal/erase_test_79_1_1_ours1.png)等。
人像场景：展示了多组人像场景的图片对比，如(image_assets/ffhq/02909.gt_with_mask.png)与(image_assets/ffhq/02909.ours.png)等。

对比

自然场景（Places2）对比：展示了相关对比图片（image_assets/tab3.png、image_assets/sup_showcase_places_v2.png）。
人像场景（CelebA - HQ, FFHQ）对比：展示了相关对比图片（image_assets/tab4.png、image_assets/sup_showcase_celebahq_ffhq.png）。

BibTeX

@misc{DuanAndXu2026Moebius, title="Moebius: 0.2B Lightweight Image Inpainting Framework with 10B - Level Performance", author="Kangsheng Duan and Ziyang Xu and Wenyu Liu and Xiaohu Ruan and Xiaoxin Chen and Xinggang Wang", year="2026", eprint="2606.19195", archivePrefix="arXiv", primaryClass="cs.CV", url="https://arxiv.org/abs/2606.19195", }

感谢网站模板[Nerfies](https://github.com/nerfies/nerfies.github.io)。