Un-0：耦合振荡器驱动图像生成，有望实现现代 AI 能源效率 1000 倍提升

转载于 2026-06-26 08:43:49 发布 · 4 阅读

Un-0：耦合振荡器驱动图像生成，实现能源效率新飞跃

2026 年 6 月 25 日发布研究成果。过去十年，在 GPU 上运行深度神经网络主导 AI 领域，但要实现能源效率的下一次飞跃，需利用物理原理进行计算的计算机。为此，开发了由模拟 _耦合振荡器_ 系统驱动的图像生成器 Un-0，它是新兴物理计算基底的实例。在 ImageNet 64×64 数据集上，Un-0 达到 FID 6.74 的成绩，与领先的传统图像生成方法首次发布时的质量相当，且模型权重、训练代码和消融实验代码均已开源。

Un-0

Unconventional AI 正在构建利用物理定律计算的新型计算机，目标是让现代 AI 在仅为当前机器所需能量约 1000 倍小的情况下运行。为此提出问题：能否训练物理 [动态系统] 大规模生成图像？如今，最优秀的 AI 模型是具有 Transformer 架构的传统深度网络，但也存在利用物理系统动态特性提高能源效率的替代方案，如利用模拟电路中嘈杂、时变行为进行计算。这些基于物理的替代方案包括神经形态计算、Hopfield 网络和储层计算等，近期研究界还开发了哈密顿网络、液体网络等。Un-0 证明现代 AI 工作负载在物理基底上运行比在当前硬件上更高效。在致力于在物理和非常规基底上构建 AI 的研究群体中，Un-0 是迄今最强大的使用物理动态系统模拟的图像生成器。在条件类 ImageNet 64×64 数据集上，Un-0 达到 FID 6.74 的成绩，且随着参数数量增加，性能仍有提升空间。虽探索的物理原语并非全新概念，但将其扩展到更大的生成基准测试中，对动态特性本身进行了消融分析，并对模型的行为进行了解释性分析。同时发布了模型权重以及训练、评估和消融实验代码，方便对基于物理系统动态特性的模型进行实验。在将现代 AI 迁移到物理动态系统并实现约 1000 倍能源效率提升的征程中，才刚刚起步。

Un-0 的工作原理

想象两个节拍器并排摆动，每个节拍器可用其 _相位_ 描述，将它们放在同一张桌子上，会通过共享桌面相互作用，根据耦合强度同步或反相摆动，这就是振荡器。将振荡器数量扩展到数千个，大量振荡器相互耦合会自组织形成各种模式。Un-0 的计算引擎由大量振荡器组成，所有振荡器对之间的耦合强度是模型的主要可学习参数。这些耦合振荡器通常被建模为 [_Kuramoto 振荡器_]，每个振荡器的运动遵循单一规则并随时间持续应用：以自身固有频率旋转，同时受其他所有振荡器拉动影响。以下常微分方程描述了振荡器随时间的演化：\dot{\theta}_i = \omega_i + \sum_{j=1}^{N} K_{ij}\sin(\theta_j - \theta_i), \qquad i = 1, \dots, N每个振荡器 `i` 具有相位 `\theta_i \in [0, 2\pi)`，`\omega_i` 是其固有频率。矩阵 `K_{ij}` 指定耦合强度，决定振荡器 `j` 对振荡器 `i` 的拉动强度。Un-0 这部分的学习问题是学习耦合矩阵 `K` 和频率 `\omega`。之所以选择振荡器，是因为大脑中节律活动和同步现象普遍，人们假设它们在计算中发挥重要作用，耦合振荡器是这类行为最简单的数学模型之一，是研究神经启发计算模型的自然选择。对 Unconventional AI 来说，振荡器是基本物理电路，可直接在 CMOS 或其他 [物理基底] 中实现耦合振荡器系统，使系统物理特性直接进行动态计算，这是 Un-0 的核心理念。

模型

模型架构

使用 Un-0 生成图像的推理过程包括五个步骤：1. 从随机状态开始，将每个振荡器的相位设置为随机角度 `\theta_i \in [0, 2\pi)`，此随机起始状态为种子，不同种子生成不同图像。2. 选择类别，一组较小的振荡器驱动所需图像类别，并与主要振荡器群体耦合，使主要群体趋向与该类别相关的排列状态。3. 让物理过程执行，释放系统，让振荡器相互作用，从初始随机状态演化到由耦合关系决定的状态。4. 获取快照，在指定时间 `T`，记录每个振荡器的相位，这些最终相位集合是图像的潜在表示。5. 渲染图像，一个传统的解码器将潜在表示转换为最终的像素图像，该解码器占模型参数的不到 13%。训练过程仅改变模型内部三个方面：振荡器之间的耦合方式（矩阵 `K`）、每个振荡器的固有频率（`\omega_i`）、解码器的权重。振荡器取代了原本传统神经网络层的作用。选择这种模型架构是为让动态特性在计算过程中具有最大灵活性。训练的前向传播过程只需设置耦合矩阵、振荡器频率和初始相位，进行动态演化，读取最终的图像潜在表示。这与其他动态生成方法不同，后者在训练过程中会明确引导动态特性，但这种方法代价是需要更复杂的损失函数，该函数仅基于生成的样本进行操作。更多详细信息可参考附录中对模型的详细说明。

模型构建过程

针对 [CIFAR - 10] 和 [ImageNet] 64×64 数据集，分别训练了三种不同规模的模型。

CIFAR - 10 模型

模型名称	振荡器数量	总可训练参数	振荡器参数	解码器参数	解码器参数占比	FID@50k
Un - 0.n1024	1024	129 万	113 万	16 万	12.24%	11.01
Un - 0.n2048	2048	494 万	436 万	58 万	11.77%	9.32
Un - 0.n4096	4096	1943 万	1711 万	233 万	11.96%	8.76

ImageNet 64×64 模型

模型名称	振荡器数量	总可训练参数	振荡器参数	解码器参数	解码器参数占比	FID@50k
Un - 0.n6656	6656	5717 万	5096 万	621 万	10.86%	8.41
Un - 0.n10240	10240	1.298 亿	1.1511 亿	1469 万	11.32%	8.01
Un - 0.n16384	16384	3.2244 亿	2.8484 亿	3761 万	11.66%	6.74

训练过程

使用最近提出的漂移损失、DINOv2 特征提取器和 AdamW 优化器，在 CIFAR - 10 和 ImageNet 64×64 数据集上对耦合矩阵、振荡器频率和解码器进行端到端训练。模型使用显式欧拉方法对动态特性进行积分。

评估过程

采用这些基准测试的标准评估方法。对于 CIFAR - 10 模型，使用 5 万个生成样本进行评估，并使用标准包和评估流程与参考 CIFAR - 10 统计数据进行比较。对于 ImageNet 64×64 模型，同样使用 5 万个生成样本进行评估，并使用 [ADM 评估套件] 计算 FID。

计算资源

在 1 个 B200 GPU 上训练所有 CIFAR - 10 模型，在 8 个 B200 GPU 上训练所有 ImageNet 64×64 模型。最大的 CIFAR - 10 模型训练需要 20 个 B200 GPU 小时，最大的 ImageNet 64×64 模型训练需要 640 个 B200 GPU 小时。训练过程中最大的瓶颈是漂移损失函数的计算，这需要使用传统的图像特征提取器，并且需要在多个特征视图上进行计算。

Un-0 的性能表现

将 Un-0 与传统和非常规模型在 **质量 - 参数数量** 曲线上进行对比。在图表中，实心点表示在每个数据集上按照相同的 `FID - 50k` 协议测量的模型，空心点表示无法直接复现的已发表数据，原因可能是代码、检查点或确切的评估设置不可用。由于不同论文的评估协议可能存在差异，这些已发表的数据应作为参考点，而非严格相同的测量结果。对于 ImageNet 64×64 数据集，特别纳入了在 ImageNet 64×64 分辨率下训练和评估的模型，具体模型的代码和检查点链接请参考参考文献部分。

讨论

Un-0 的质量与早期的传统生成器相当或更优，但仍落后于后期的高性能模型。认为 Un-0 是有前途的初步尝试，其质量与几种成熟的图像生成方法首次推出时相当。在参数数量方面，Un-0 在小模型中扩展了帕累托前沿，但在较大规模下，尚未达到最先进的传统基线水平，随着规模增加，质量仍在提高，但速度比传统模型慢。将这些结果视为新方法的起点，所对比的传统方法经过多年架构和算法改进才发展到现在的水平，通过更好的学习算法、模型架构和物理原语来提高 Un-0 的扩展性是下一步的工作。

消融实验

Un-0 是不寻常的模型，不仅关注模型质量，还希望了解其非常规（振荡器）和传统（解码器）组件的作用。为验证振荡器是否在进行有效计算，进行了消融实验。

实验内容

对于每个实验，都进行了完整的学习率搜索，并选择了使该特定实验 FID 最低的学习率。- **仅解码器实验**：单独训练解码器，不考虑动态特性，从先验分布中生成噪声，然后将噪声直接输入解码器，并使用与完整模型相同的损失函数进行优化。- **储层实验**：使用与完整模型相同的损失函数进行训练，但将动态权重固定为初始随机值。- **时间步长实验**：对于 Un-0 和储层模型，在训练过程中改变推理步骤的数量。当积分步骤为 1 时，模型的行为类似于典型神经网络中的单层，或者是围绕初始条件线性化的动态系统。增加积分步骤可以提高底层动态系统的保真度和潜在的非线性。

实验结果

在 CIFAR - 10 和 ImageNet 64×64 模型中，发现如果没有额外的结构支持，解码器很难将先验分布中的噪声映射到目标图像分布。但即使是随机 Kuramoto 动态特性提供的少量结构，也能使储层模型的性能得到显著提升，其 FID 介于仅解码器模型和 1 步、10 步储层模型之间。学习 1 步动态特性的模型在 CIFAR - 10 上并没有显著优于储层动态特性模型，学习如此简单的线性化动态特性似乎没有太大好处。然而，将积分步骤从 1 增加到 10 步时，FID 有明显的改善趋势，且表现最佳的模型是那些具有最多积分步骤和学习动态特性的模型。在使用 10 个积分步骤训练的模型中，当使用更多积分步骤或自适应求解器时，FID 仅增加了约 3%。这些结果共同表明，Un-0 利用了非线性动态特性进行计算。

动态特性的作用

消融实验表明动态特性很重要，接下来从多个角度研究动态特性的行为，得出假设：动态特性和解码器发挥着不同的作用，动态特性负责 _多样性_，解码器负责 _图像质量_。

可分离性

方法并非训练完整的轨迹，而是专注于 `T = 1` 时刻。通过观察 `T = 1` 时刻解码器空间中的相对相位，在 ImageNet 64×64 数据集中选取 50 个类别，通过前三个主成分进行可视化，以定义一个低维投影。发现训练后的网络在不同类别之间表现出高度的视觉可分离性。为验证这一现象在 ImageNet 64×64 数据集中的所有 1000 个类别中是否普遍存在，进行了可解码性分析，综合分析结果证实，在 `T = 1` 时刻的目标驱动了在低维空间中相对于有效解码器输入维度的分离。

吸引子

将推理过程扩展到 `T > 1`，观察动态特性是否学会了使用固定点或吸引子流形来实现聚类。通过在解码器空间的低维投影中绘制 Un - 0.n4096 在 CIFAR - 10 数据集上的动态特性，观察到动态特性的两个阶段：类别条件轨迹迅速分离；图像逐渐细化。这个明显的第二阶段表明形成了类别条件吸引子流形。

图像质量与多样性

像 FID 这样的分布度量结合了单样本图像质量和图像多样性/覆盖率，可能受到图像 _精度_ 或 _召回率_ 的限制。为补充 FID，使用精度和召回率作为图像质量和多样性的可测量代理。观察图像生成的时间动态，训练的模型最初随机生成大量低质量但高度多样化的图像，随着时间的推移，Kuramoto 系统的动态特性将多样化的初始条件引导到与狗、猫和蘑菇等类别一致的状态。在未训练的储层模型中，动态特性会显著降低召回率。随着时间的推移，FID 不再受图像质量的限制，而是受图像多样性的限制。训练后的网络在不同时间显著增加了状态的多样性，意味着动态特性开始与类别流形对齐。消融实验也显示，仅解码器模型和储层模型的最终召回率相对于训练后的 Kuramoto 动态特性较低。引出简化假设：混合系统将职责进行了划分，Kuramoto 动态特性负责保持多样性，传统解码器负责生成高质量的图像。展望未来，设想通过完全非常规的方法，在芯片上利用物理动态特性生成高质量、多样化的图像样本。

结论

Un-0 的质量与当今领先的生成方法的初始水平相当，传统生成器在绝对质量和参数效率方面仍然更具优势，未来的工作是通过新的算法和模型架构来缩小这一差距。总的来说，Un-0 的耦合 Kuramoto 振荡器系统展示了在前所未有的规模上利用物理动态特性进行学习的潜力，为开发一种新型计算机指明了方向，这种计算机利用物理原理实现能源效率目标，即在相同质量下，降低现代 AI 每次推理所需的焦耳数。

试用并加入使命

发布了以下内容：- **Kuramoto 模型的权重**，适用于 CIFAR - 10 和 ImageNet 数据集。- **训练脚本**，可用于复现训练结果，并扩展到自定义模型。- **完整的消融实验脚本**，任何人都可以在自己的动态系统上运行相同的控制实验。详情请查看 [GitHub]。随着和其他研究者通过新的算法、模型和物理原语缩小差距，请持续关注。对于非常规 AI 系统，社区才刚刚起步。实现现代 AI 能源效率提高 1000 倍是一个宏大的全栈挑战，但社区的成果为前进指明了充满希望的道路。如果正在构建基于物理的模型，或者任何具有动态核心的模型，请将它们集成到 Un-0 框架中进行训练，看看它们的表现如何。如果对这类问题感兴趣并希望合作：[加入我们]，[作为合作者联系我们]，或者 [关注后续进展]。

参考文献

1. Shiqi Chen, Yuhang Li, Yuntian Wang, Hanlong Chen, Aydogan Ozcan. "Optical generative models." _Nature_ 2025.2. Ilker Oguz, Niyazi Ulas Dinc, Mustafa Yildirim, Junjie Ke, Innfarn Yoo, Qifei Wang, Feng Yang, Christophe Moser, Demetri Psaltis. "Optical Diffusion Models for Image Generation." NeurIPS 2024.3. Tiankuang Zhou, Yizhou Jiang, Zhihao Xu, Zhiwei Xue, Lu Fang. "Hundred - layer photonic deep learning." _Nature Communications_ 2025.4. Jiaqi Chu, Heiner Kremer, Fabian Falck, Grace Brennan, Burcu Canakci, James Clegg, Daniel Cletheroe, Doug Kelly, Christos Gkantsidis, Michael S. Hansen, Paul Jeha, Kirill P. Kalinin, Jim Kleewein, Babak Rahmani, Saravan Rajmohan, Victor Rühle, Jannes Gladrow, Francesca Parmigiani, Hitesh Ballani. "Analog Diffusion Models." 2026.5. Andraž Jelinčič, Owen Lockwood, Akhil Garlapati, Guillaume Verdon, Trevor McCourt. "An efficient probabilistic hardware architecture for diffusion - like models." 2025.6. Zhihao Xu, Tiankuang Zhou, Muzhou Ma, ChenChen Deng, Qionghai Dai, Lu Fang. "Large - scale photonic chiplet Taichi empowers 160 - TOPS/W artificial general intelligence." Science 2024.7. Stephen Whitelam. "Generative thermodynamic computing." _Physical Review Letters_ 136, 037101, 2026.8. Cyrill Bösch, Geoffrey Roeder, Marc Serra - Garcia, Ryan P. Adams. "Local Learning Rules for Out - of - Equilibrium Physical Generative Models." arXiv:2506.19136, 2025.9. Carver Mead. "Neuromorphic Electronic Systems." Proceedings of the IEEE 78(10):1629–1636, 1990.10. Patrick J. Coles, Collin Szczepanski, Denis Melanson, Kaelan Donatella, Antonio J. Martinez, Faris Sbahi. "Thermodynamic AI and the fluctuation frontier." arXiv:2302.06584, 2023.11. Andraž Jelinčič, Owen Lockwood, Akhil Garlapati, Peter Schillinger, Isaac Chuang, Guillaume Verdon, Trevor McCourt. "An efficient probabilistic hardware architecture for diffusion - like models." arXiv:2510.23972, 2025.12. Sohl - Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML, 2015.13. Lipman, Yaron, Ricky TQ Chen, Heli Ben - Hamu, Maximilian Nickel, and Matt Le. "Flow matching for generative modeling." 2022.14. Jonathan Ho, Ajay Jain, Pieter Abbeel. "Denoising Diffusion Probabilistic Models." NeurIPS 2020.15. Yang Song, Stefano Ermon. "Generative Modeling by Estimating Gradients of the Data Distribution." NeurIPS 2019.16. Oquab, Maxime, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez et al. "DINOv2: Learning robust visual features without supervision." TMLR 2024.17. Yang Song, Stefano Ermon. "Improved Techniques for Training Score - Based Generative Models." NeurIPS 2020.18. Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever. "Consistency Models." ICML 2023. [arXiv:2303.01469](https://arxiv.org/abs/2303.01469)19. Tero Karras, Miika Aittala, Timo Aila, Samuli Laine. "Elucidating the Design Space of Diffusion - Based Generative Models" (EDM). NeurIPS 2022. [arXiv:2206.00364](https://arxiv.org/abs/2206.00364)20. Alex Nichol, Prafulla Dhariwal. "Improved Denoising Diffusion Probabilistic Models." ICML 2021. [arXiv:2102.09672](https://arxiv.org/abs/2102.09672)21. Mingyang Deng, He Li, Tianhong Li, Yilun Du, Kaiming He. "Generative Modeling via Drifting." 2026. [arXiv:2602.04770](https://arxiv.org/abs/2602.04770)22. J. Deng, W. Dong, R. Socher, L. - J. Li, K. Li, and L. Fei - Fei. "ImageNet: A large - scale hierarchical image database." [CVPR](https://www - cs - faculty.stanford.edu/groups/vision/documents/ImageNet_CVPR2009.pdf) 2009.23. Krizhevsky, Alex, and Geoffrey Hinton. "[Learning multiple layers of features from tiny images.](http://www.cs.utoronto.ca/~kriz/learning