目前从公布的示例看,功能是真强大。
一、核心技术与架构
Flux Kontext Image Generator由德国黑森林实验室(Black Forest Labs)开发,是一款上下文感知的多模态图像生成与编辑模型,核心基于流匹配(Flow Matching)架构,支持文本和图像混合输入,解决传统模型在角色一致性、编辑精度和多轮修改中的痛点。其技术特点包括:

-
双流与单流混合架构
-
双流模块(DoubleStreamBlock):分别处理文本和图像Token,通过交叉注意力机制融合信息,提升语义关联精度。例如,输入“将左侧人物手中的牙刷替换为麦克风”时,模型能精准定位并替换目标物体,同时保持背景和其他元素不变。
-
单流模块(SingleStreamBlock):融合后的Token经38层Transformer处理,优化GPU利用率,支持1024×1024分辨率图像3-5秒生成。
-
-
三维旋转位置编码(3D RoPE)通过虚拟时间步(Virtual Time Step)区分上下文图像与目标图像,例如将参考图像的Token标记为“时间步1”,目标图像为“时间步0”,确保空间结构不变的同时实现场景切换。
-
对抗性扩散蒸馏(Adversarial Diffusion Distillation)减少采样步骤(从传统扩散模型的50-250步降至8步),在提升图像质量的同时实现8倍于GPT-Imag


1459

被折叠的 条评论
为什么被折叠?



