
一、项目介绍:多智能体驱动的全流程视频生成框架
1. 基础信息
项目名称:ViMax
开发团队:香港大学数据智能实验室(HKUDS,深耕AI多智能体与视频生成领域)
核心定位:一款多智能体协作的端到端视频生成框架,通过“编剧+分镜师+渲染引擎”智能体分工,实现从文本创意/剧本/参考图到完整视频的全流程自动化,支持文本生成视频(T2V)、首帧生成视频(FF2V)、首尾帧生成视频(FLF2V)三种模式,解决传统视频制作流程繁琐、长视频风格漂移、一致性难保障等痛点。
仓库现状:GitHub开源免费(遵循MIT许可证),支持自由使用、修改和分发,整合Google Veo、豆包Seedance等主流视频生成模型,文档完善、代码模块化,适配内容创作者、营销人员、教育工作者等群体,是专业级视频生成的轻量化开源解决方案。

2. 核心技术参数(视频生成类重点突出)
- • 架构类型:多智能体模块化架构,包含编剧、分镜师、参考图选择器、渲染引擎四大核心智能体;
- • 技术栈:基于Python开发,依赖uv包管理工具,集成LLM(Google Gemini 2.5)、视频生成API(Google Veo、豆包Seedance)、视觉校验模型(MLLM/VLM);
- • 生成能力:支持卡通、写实等多风格视频,最长生成时长适配短视频场景(默认≤3个场景),分辨率/帧率由底层视频生成模型决定(兼容主流API参数);
- • 核心创新:多智能体分工协作、视觉一致性校验(参考图管理+VLM校验)、多生成模式自适应切换;
- • 部署要求:Python 3.10+,需配置对应视频生成API密钥(如Google Veo、Gemini),无特殊硬件要求(依赖云端API渲染)。
3. 项目核心价值
传统视频生成工具要么流程碎片化(需手动写剧本、分镜、渲染),要么长视频易出现风格/角色漂移,普通创作者难以快速产出专业内容。ViMax的核心价值在于:
- • 全流程自动化:从文本创意到成片无需人工干预,省去剧本撰写、分镜设计、镜头拼接等繁琐步骤;
- • 一致性保障:通过参考图管理和VLM视觉校验,确保长视频中角色、场景、风格保持统一,解决漂移痛点;
- • 多模式适配:支持文本、首帧、首尾帧三种输入方式,灵活适配不同创作需求(如无参考图用T2V,有明确风格参考用FF2V);
- • 低门槛专业级产出:无需影视制作经验,通过自然语言描述即可生成符合影视语言的结构化视频,降低专业视频创作门槛。
二、核心功能:多智能体分工+多模式生成,覆盖视频创作全流程
ViMax以“多智能体协作”为核心,实现视频创作全流程自动化,每个功能模块都直击创作者痛点:
1. 多智能体分工协作:模拟专业影视制作流程
- • 核心智能体各司其职,复刻真实影视制作团队协作逻辑:
- • 编剧智能体(Screenwriter):基于Google Gemini 2.5 LLM,将模糊文本创意转化为结构化剧本,包含角色、情节、场景描述、对话、动作指导,符合影视叙事逻辑;
- • 分镜师智能体:根据剧本拆解镜头语言,设计视觉叙事节奏(如远景铺垫、近景刻画),确定每个镜头的时长、角度和核心元素;
- • 参考图选择器:自动筛选或生成参考图像,作为视频渲染的风格基准,确保所有镜头风格统一;
- • 渲染引擎:调用Google Veo、豆包Seedance等主流视频生成API,根据输入模式(T2V/FF2V/FLF2V)自适应生成视频,支持异步任务轮询获取结果。



357

被折叠的 条评论
为什么被折叠?



