视频生成革命！HKUDS开源神器，从创意到成片全自动化，小白也能当导演

最新推荐文章于 2026-05-22 08:09:50 发布

原创

最新推荐文章于 2026-05-22 08:09:50 发布 · 585 阅读

标签

#AI

一、项目介绍：多智能体驱动的全流程视频生成框架

1. 基础信息

项目名称：ViMax
开发团队：香港大学数据智能实验室（HKUDS，深耕AI多智能体与视频生成领域）
核心定位：一款多智能体协作的端到端视频生成框架，通过“编剧+分镜师+渲染引擎”智能体分工，实现从文本创意/剧本/参考图到完整视频的全流程自动化，支持文本生成视频（T2V）、首帧生成视频（FF2V）、首尾帧生成视频（FLF2V）三种模式，解决传统视频制作流程繁琐、长视频风格漂移、一致性难保障等痛点。
仓库现状：GitHub开源免费（遵循MIT许可证），支持自由使用、修改和分发，整合Google Veo、豆包Seedance等主流视频生成模型，文档完善、代码模块化，适配内容创作者、营销人员、教育工作者等群体，是专业级视频生成的轻量化开源解决方案。

2. 核心技术参数（视频生成类重点突出）

• 架构类型：多智能体模块化架构，包含编剧、分镜师、参考图选择器、渲染引擎四大核心智能体；
• 技术栈：基于Python开发，依赖uv包管理工具，集成LLM（Google Gemini 2.5）、视频生成API（Google Veo、豆包Seedance）、视觉校验模型（MLLM/VLM）；
• 生成能力：支持卡通、写实等多风格视频，最长生成时长适配短视频场景（默认≤3个场景），分辨率/帧率由底层视频生成模型决定（兼容主流API参数）；
• 核心创新：多智能体分工协作、视觉一致性校验（参考图管理+VLM校验）、多生成模式自适应切换；
• 部署要求：Python 3.10+，需配置对应视频生成API密钥（如Google Veo、Gemini），无特殊硬件要求（依赖云端API渲染）。

3. 项目核心价值

传统视频生成工具要么流程碎片化（需手动写剧本、分镜、渲染），要么长视频易出现风格/角色漂移，普通创作者难以快速产出专业内容。ViMax的核心价值在于：

• 全流程自动化：从文本创意到成片无需人工干预，省去剧本撰写、分镜设计、镜头拼接等繁琐步骤；
• 一致性保障：通过参考图管理和VLM视觉校验，确保长视频中角色、场景、风格保持统一，解决漂移痛点；
• 多模式适配：支持文本、首帧、首尾帧三种输入方式，灵活适配不同创作需求（如无参考图用T2V，有明确风格参考用FF2V）；
• 低门槛专业级产出：无需影视制作经验，通过自然语言描述即可生成符合影视语言的结构化视频，降低专业视频创作门槛。

二、核心功能：多智能体分工+多模式生成，覆盖视频创作全流程

ViMax以“多智能体协作”为核心，实现视频创作全流程自动化，每个功能模块都直击创作者痛点：

1. 多智能体分工协作：模拟专业影视制作流程

• 核心智能体各司其职，复刻真实影视制作团队协作逻辑：
- • 编剧智能体（Screenwriter）：基于Google Gemini 2.5 LLM，将模糊文本创意转化为结构化剧本，包含角色、情节、场景描述、对话、动作指导，符合影视叙事逻辑；
- • 分镜师智能体：根据剧本拆解镜头语言，设计视觉叙事节奏（如远景铺垫、近景刻画），确定每个镜头的时长、角度和核心元素；
- • 参考图选择器：自动筛选或生成参考图像，作为视频渲染的风格基准，确保所有镜头风格统一；
- • 渲染引擎：调用Google Veo、豆包Seedance等主流视频生成API，根据输入模式（T2V/FF2V/FLF2V）自适应生成视频，支持异步任务轮询获取结果。