
摘要
尽管100亿级别工业基础模型拓展了图像修复的边界,但其高昂的计算成本严重阻碍了实际部署。构建高度优化的特定任务模型是一个有前景的解决方案,但极端的结构压缩不可避免地会引发严重的表征瓶颈。为克服这一问题,提出了Moebius,一个高效的轻量级图像修复框架。通过引入局部λ混合交互(LλMI)模块,系统地重构了扩散主干网络。该模块由局部λ和交互λ子模块组成,能将空间上下文和全局语义先验优雅地总结为固定大小的线性矩阵,在大幅减少参数的同时保留复杂的潜在交互。此外,为充分发挥这个高度紧凑架构的表征能力,将其与自适应多粒度蒸馏策略相结合。该策略严格在潜在空间内操作,避免了昂贵的像素空间解码,通过动态平衡多个基于梯度的损失来实现高保真对齐。在自然和人像基准测试中的大量实验表明,这种最优协同使Moebius能够媲美甚至超越100亿级别工业通用模型FLUX.1 - Fill - Dev的生成质量。值得注意的是,Moebius仅使用了不到2%的参数(0.220亿vs 119亿),同时总推理时间加速超过15倍,为高保真图像修复树立了新的效率标准。
Moebius的方法与亮点
方法
采用了配备潜在类别引导(LCG)的潜在扩散模型(LDM)框架。为实现极致的架构效率,使用提出的LλMI模块对去噪U - Net进行了系统重构(详见3.2节)。此外,在训练过程中应用了自适应多粒度蒸馏策略(3.3节),使轻量级模型与高容量的教师模型对齐,成功缓解了极端结构压缩导致的性能下降问题。
亮点
- 极低的参数效率(< 2%):Moebius仅使用0.220亿(2.26亿)个参数,不到庞大的工业巨头FLUX.1 - Fill - Dev(119亿)规模的2%。它打破了高计算量的传统观念,使高质量的图像修复在消费级和边缘设备上成为可能。
- 15倍推理加速(每步26毫秒):在单个GPU上实现了仅26.01毫秒/步的惊人推理延迟。结合优化的采样步骤,与100亿级别模型相比,Moebius的总运行时间加速超过15倍。
- 100亿级别图像修复质量(在6个基准测试中与FLUX.1 - Fill - Dev相当或超越):模型规模的缩小并不意味着表征能力的下降。通过架构和蒸馏的协同优化,Moebius在6个综合基准测试中表现与100亿级别最先进(SOTA)的通用模型(FLUX.1 - Fill - Dev、SD3.5 Large - Inpainting)相当,在某些场景(如复杂纹理和面部合理性)中甚至超越了它们。这些基准测试涵盖了自然场景(Places2)和人像场景(CelebA - HQ、FFHQ)。
- 协同核心创新:
- 架构设计(LλMI模块):通过将空间上下文和全局语义先验浓缩为固定大小的线性矩阵,重新定义了自注意力和交叉注意力机制,避免了二次计算开销。
- 自适应多粒度蒸馏策略:严格在潜在空间内将[PixelHacker](https://github.com/hustvl/PixelHacker)(教师模型)的表征能力进行迁移(避免了昂贵的像素空间解码)。该策略通过对齐多粒度监督(从微观中间特征到宏观扩散轨迹)来弥合巨大的性能差距,同时通过梯度范数自适应损失加权机制动态平衡训练过程。
- 最优协同平衡:系统地探索了紧凑结构和蒸馏之间的相互约束和上限。通过绘制这种架构 - 蒸馏协同前沿,确保0.220亿参数的Moebius(学生模型)在不引发表征饱和的情况下,吸收[PixelHacker](https://github.com/hustvl/PixelHacker)(教师模型)的最大语义推理能力。
- 特定任务模型优于臃肿的通用模型:Moebius没有盲目扩大模型规模,而是回答了一个基本问题:当任务明确时,模型能否更智能、更轻量、更快?它作为一个高度优化的特定任务模型,将现实世界的图像修复和AI对象移除从参数冗余中解放出来。
可视化与对比
可视化
- 自然场景:展示了多组自然场景的图片对比,如(image_assets/removal/erase_test_79_1_1_masked_gt.png)与(image_assets/removal/erase_test_79_1_1_ours1.png)等。
- 人像场景:展示了多组人像场景的图片对比,如(image_assets/ffhq/02909.gt_with_mask.png)与(image_assets/ffhq/02909.ours.png)等。
对比
- 自然场景(Places2)对比:展示了相关对比图片(image_assets/tab3.png、image_assets/sup_showcase_places_v2.png)。
- 人像场景(CelebA - HQ, FFHQ)对比:展示了相关对比图片(image_assets/tab4.png、image_assets/sup_showcase_celebahq_ffhq.png)。
BibTeX
@misc{DuanAndXu2026Moebius, title="Moebius: 0.2B Lightweight Image Inpainting Framework with 10B - Level Performance", author="Kangsheng Duan and Ziyang Xu and Wenyu Liu and Xiaohu Ruan and Xiaoxin Chen and Xinggang Wang", year="2026", eprint="2606.19195", archivePrefix="arXiv", primaryClass="cs.CV", url="https://arxiv.org/abs/2606.19195", }
感谢网站模板[Nerfies](https://github.com/nerfies/nerfies.github.io)。
1756

被折叠的 条评论
为什么被折叠?



