写在前面

欢迎大家关注Rocky的公众号:WeThinkIn
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的 《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源: 【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章: 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
AIGC算法岗/开发岗面试面经交流社群(涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0
大家好,我是Rocky。

2026 年 6 月 23 日,字节跳动在 2026 火山引擎大会上正式公布 Seedance 2.5。公开消息中最值得关注的一点,是 Seedance 2.5 首次实现 一次直出 30 秒完整视频。
如果只按参数理解,这似乎只是“视频时长变长了”。但 Rocky 认为,这个变化的本质不在 30 秒这个数字,而在视频生成的最小可用单位发生了变化:
AI 视频生成正在从“片段级生成”,进入“叙事单元级生成”。
过去很多视频模型能生成惊艳的 5 秒、10 秒、15 秒片段,但这些片段更像单个镜头、单个视觉 demo、单个创意素材。它们可以证明模型会画、会动、会做镜头感,但还不能天然承担完整表达。
30 秒不一样。
30 秒已经足够容纳一个小型叙事闭环:开场、发展、转折、收束;也足够承载产品广告、短剧预告、游戏 CG 分镜、品牌短片、口播切片、教育演示和社媒传播内容。换句话说,Seedance 2.5 如果能稳定直出 30 秒完整视频,它改变的不是“视频长了一点”,而是视频生成开始具备更接近成片的生产价值。
这也是 Seedance 2.5 对行业最重要的刺激:视频生成模型的竞争,正在从单帧审美和短片段冲击力,转向长时序一致性、镜头叙事、音画协同和可生产工作流。
一、新闻内容:Seedance 2.5 发布,30 秒直出成为新信号
这次 Seedance 2.5 的发布,放在 2026 年 AI 视频模型竞争里看,并不是孤立事件。
过去一年,视频生成模型持续加速:Google Veo 系列持续强化音视频生成与真实感,OpenAI Sora 系列继续强化视频生成入口与创作社区,Runway、Pika、可灵等产品在专业创作者、短视频、电商和社媒场景持续推进。字节跳动的 Seedance 则代表另一条非常有产业味道的路线:把视频生成能力放进内容平台、剪辑工具、广告系统、云 API 和企业生产链路里。
Seedance 2.0 已经在 2026 年初引发过很高关注。它支持文本、图像、音频、视频多模态输入,可以直接生成 4 到 15 秒的音视频内容,公开技术报告中提到原生 480p、720p 输出,并支持最多 3 个视频片段、9 张图片、3 段音频作为参考输入。The Verge 等媒体也曾报道,Seedance 2.0 可以生成带同步音频、复杂运镜、真实运动动态的 15 秒片段。
Seedance 2.5 在这个基础上把关键变量推到了 30 秒。
这意味着行业关注点要从“模型能不能生成好看的短视频”进一步转向:
- 能不能保持 30 秒内的人物身份一致;
- 能不能维持场景、道具、服装、光照和空间关系稳定;
- 能不能让镜头运动有叙事逻辑,而不是随机漂移;
- 能不能让音画节奏、情绪变化和动作节点对齐;
- 能不能成为广告、短剧、游戏、电商和企业内容生产里的真实工具。
Rocky 的判断是:Seedance 2.5 的新闻价值,不在于它多生成了 15 秒,而在于它把 AI 视频从“素材工具”往“内容生产系统”推了一步。
二、具体功能:Seedance 2.5 最值得关注的能力方向
由于 Seedance 2.5 的完整技术白皮书和官方参数细节尚未大规模公开,理解 2.5 的功能,需要结合已披露的 30 秒直出能力,以及 Seedance 2.0 已经公开的技术路线。
从产品和行业角度看,Seedance 2.5 最值得关注的是五类能力。
1. 一次直出 30 秒完整视频
这是 Seedance 2.5 当前最明确的功能亮点。
5 秒到 15 秒的视频生成,更像片段生成。它适合做一个镜头、一个动作、一个视觉冲击点。30 秒则开始进入完整表达:它可以承载小故事、小广告、小教程、小剧情、小演示。
这对工作流影响很大。过去创作者往往需要生成多个短片段,再靠剪辑、补帧、转场、调色、局部修复拼接成一个可用视频。30 秒直出意味着模型可以先给出一条完整叙事骨架,再由人进行局部编辑和后期微调。
这不是替代剪辑,而是改变剪辑的起点。
2. 多模态输入与参考控制
Seedance 2.0 已经支持文本、图像、音频、视频四类输入。这个能力对 2.5 尤其关键。
长视频生成不能只靠一句 prompt。30 秒内容需要角色、场景、镜头、声音、节奏和风格都稳定下来。多模态参考输入可以把用户的控制意图变得更具体:
- 用图片锁定角色形象和视觉风格;
- 用视频参考动作、镜头和场景运动;
- 用音频参考节奏、情绪和声音氛围;
- 用文本描述剧情、镜头和整体意图。
未来视频生成真正可控,不会只依赖“提示词写得好”,而会越来越依赖多模态素材组织能力。
3. 音视频协同生成
Seedance 2.0 的一个关键定位,是 native multi-modal audio-video generation model。它不是单纯生成无声画面,而是面向音视频联合生成。
这对 30 秒视频非常重要。越长的视频,声音越不能只是后期贴上去。人物动作、环境变化、镜头节奏、背景音乐和音效节点都需要协同。比如脚步声、车流声、爆炸声、转场声效、台词节奏、音乐高潮,都必须和画面发生关系。
如果模型只能画得好,但声音和画面脱节,它仍然难以进入真实内容生产。
4. 复杂场景与多主体运动
Seedance 2.0 的公开展示和媒体报道里,多次强调复杂场景、多主体、真实运动动态、镜头运动能力。2.5 做到 30 秒直出后,这类能力会被进一步放大检验。
因为长视频最怕“前几秒惊艳,后面崩掉”。
一旦出现多角色、多物体、多镜头、多场景,模型就要持续维护世界状态:谁在哪里,做了什么,下一秒应该怎样变化,镜头从哪里运动到哪里,环境光怎么过渡,物体是否还保持一致。
这已经不是单纯图像生成问题,而接近弱世界模型问题。
5. 平台化与企业级 API 潜力
Seedance 的特殊性在于它背后是字节跳动。
字节有抖音、剪映、CapCut、即梦、豆包、火山引擎,也有广告、电商、创作者和企业客户。视频生成能力一旦接入这些入口,就不仅是一个模型 demo,而可能变成内容生产基础设施。
消费端可以做创意视频、模板视频、短剧分镜、社媒内容;企业端可以做广告素材、商品视频、培训内容、活动宣传、品牌视觉;平台端可以做创作者工具、内容审核、投放优化和素材复用。
这也是 Seedance 2.5 比普通视频模型发布更值得关注的原因:它天然有落地场景。
三、技术原理与模型架构:从短片段生成到长时序叙事控制

要理解 Seedance 2.5,不能只看“30 秒”这个结果,而要看它背后需要解决哪些技术问题。
目前公开可详细参考的是 Seedance 2.0 技术报告。报告将 Seedance 2.0 定义为原生多模态音视频生成模型,强调统一、高效、大规模的多模态音视频联合生成架构。它支持文本、图像、音频、视频四类输入,并提供多模态参考与编辑能力。
从这个基础往 Seedance 2.5 的 30 秒直出延展,可以看到四个关键技术方向。
1. 统一多模态条件建模
传统视频生成往往从文本到视频开始,但真正的生产任务不可能只靠文本。一个商业视频可能同时需要:
- 商品图;
- 人物形象;
- 参考动作;
- 背景音乐;
- 品牌色;
- 镜头脚本;
- 历史素材;
- 目标比例和分辨率。
Seedance 2.0 已经把文本、图像、音频、视频纳入统一输入范式。其意义在于,模型可以把不同模态都变成生成过程里的条件信号,而不是把它们当作后期素材。
这是 AI 视频走向生产可控的基础。
2. 长时序一致性建模
短视频生成的核心难题是“动起来像不像”。长视频生成的核心难题是“持续动下去还像不像”。
30 秒视频要求模型在更长时间窗口里保持稳定状态,包括角色身份、服装细节、空间位置、光照方向、动作惯性、镜头运动和画面风格。这里最难的不是某一帧,而是跨帧、跨镜头、跨时间段的连续性。
如果说 5 秒视频考验的是运动生成,30 秒视频考验的就是时序记忆和规划能力。
3. 叙事级规划能力
30 秒内容通常不是一个动作,而是一串事件。
比如“一个人走进雨夜街道,发现异常,回头,看见光源靠近,然后奔跑离开”。这不是静态画面描述,而是事件序列。模型需要理解每个阶段的因果关系和镜头推进。
因此,Seedance 2.5 这类长视频模型真正要解决的是“从 prompt 到分镜”的隐式规划问题:
- 哪些镜头先出现;
- 哪些动作承接;
- 情绪如何变化;
- 画面节奏如何推进;
- 结尾如何收束。
未来视频模型很可能会从单一 prompt 输入,走向更结构化的脚本、分镜、时间轴和镜头表输入。
4. 音画同步与物理一致性
视频不是动图。视频有声音,有节奏,有环境反馈。
音视频联合生成的难点,不只是生成一个看似合理的声音,而是声音必须和画面事件对应。车经过要有车声,脚落地要有脚步声,玻璃破碎要有破裂声,空间变大声音也要有混响变化。
这也是为什么 30 秒视频生成会逼近“世界理解”问题。模型不能只学会像素模式,还要在一定程度上理解事件、物理、因果和跨模态关系。
Rocky 认为,这正是 Seedance 2.5 背后的本质挑战:它不是把短视频简单拉长,而是要让模型在更长时间里维持一个可被观众相信的世界。
四、测评效果:2.5 还需要等待系统榜单,但 2.0 已经给出强信号
对 Seedance 2.5,现阶段最谨慎的说法是:公开独立测评还需要等待更多第三方榜单、盲测结果和真实用户样本。
不过,Seedance 2.0 已经提供了几个重要参考坐标。
第一,Seedance 2.0 技术报告中提到,在专家评估和公开用户测试中,模型表现已经达到行业领先水平附近。它的提升不是单点能力,而是覆盖基础视频生成、多模态生成、音视频协同、复杂场景和用户体验等多个维度。
第二,The Verge 对 Seedance 2.0 的报道提到,Seedance 2.0 支持文本、图像、视频、音频组合提示,可以生成最长 15 秒、带同步音频、具有复杂运镜和真实运动动态的视频,并能通过最多 9 张图片、3 段视频、3 段音频细化提示。
第三,AV-Phys Bench 相关研究将联合音视频生成模型放到物理一致性和跨模态一致性的压力测试中,结论很有代表性:Seedance 2.0 在被评估模型中整体表现最好,但所有模型距离稳健的物理理解仍然很远。
这个结论非常重要。它说明 AI 视频模型已经从“看起来像”走向“是否真的理解物理与因果”的阶段。Seedance 2.0 在同类模型中表现强,但视频生成距离真正可靠的世界模拟仍有明显距离。
第四,从行业反馈看,Seedance 2.0 之所以在海外引发版权和肖像争议,反过来也说明它的真实感和影视风格生成能力已经强到足以触发产业焦虑。这个信号不能等同于技术测评第一,但它说明模型的生成质量已经进入大众和产业都无法忽视的区间。
因此,Seedance 2.5 的测评重点不应该只看“画质更好吗”,而应该看五个维度:
| 测评维度 | 关键问题 |
|---|---|
| 长时序一致性 | 30 秒内人物、场景、服装、道具是否稳定 |
| 叙事完整性 | 是否能完成开场、发展、转折、收束 |
| 镜头语言 | 运镜是否合理,切换是否自然,节奏是否可控 |
| 音画协同 | 声音、动作、环境变化是否同步 |
| 可编辑性 | 是否能局部修改、版本迭代、进入后期流程 |
Rocky 认为,Seedance 2.5 真正的 benchmark 不应只是模型榜单,而应该是生产级任务:给它一个广告脚本、短剧分镜、商品素材、参考音乐和品牌规范,看它能不能生成一条可被真实团队继续编辑和投放的视频。
五、具体应用:Seedance 2.5 最可能先改变哪些场景?
30 秒直出并不意味着电影工业立刻被替代。真正会先被影响的,是那些对效率、成本、批量化和视觉表达要求更高,但不一定要求院线级精修的内容场景。
1. 广告与品牌营销
广告是 30 秒视频最典型的应用场景。
品牌方可以用 Seedance 2.5 快速生成多版本创意短片:不同人群、不同风格、不同场景、不同卖点、不同节奏。过去一条广告从创意到拍摄再到后期,需要较高成本。AI 视频生成会把前期创意探索和中低成本投放素材的生产效率大幅提高。
未来广告团队的关键能力不再只是拍摄,而是“创意脚本 + 多模态素材 + AI 生成 + 快速 A/B 测试”。
2. 电商商品视频
电商场景非常适合 AI 视频。
商品图、卖点、用户场景、背景音乐、主播口播、品牌色,都可以成为多模态输入。Seedance 2.5 这类模型如果能稳定生成 30 秒视频,就可以直接服务商品种草、店铺短视频、直播预热、节日促销和跨境电商素材。
这类视频不一定需要极致艺术性,但要求快、便宜、多版本、可投放。
3. 短剧与内容预演
短剧行业对分镜、预告、情绪氛围和批量内容生产有天然需求。
Seedance 2.5 可以先用于剧本预演、分镜验证、预告片生成、角色视觉探索和宣发素材制作。它未必马上替代完整拍摄团队,但会改变前期创意验证和低成本宣发的方式。
4. 游戏与互动内容
游戏行业需要大量概念视频、剧情分镜、角色展示、技能演示、关卡氛围和宣发短片。
30 秒生成能力很适合做游戏 CG 预演、角色动作展示、世界观短片和投放素材。尤其在买量和创意测试里,AI 视频可以大幅缩短素材迭代周期。
5. 教育、培训与企业内容
企业培训、课程介绍、产品演示、会议传播、内部宣讲,都是典型的 30 秒到 2 分钟内容需求。
Seedance 2.5 如果通过火山引擎形成稳定 API,就可能进入企业内容生产链路:用脚本、素材和模板生成培训短片,再接审核、字幕、配音和发布系统。
6. 创作者与剪辑工具
对普通创作者来说,Seedance 2.5 的价值不是“替你拍完一切”,而是给你一个更完整的初稿。
过去创作者从 0 开始剪。未来可能是先生成 30 秒成片骨架,再做局部修正、重配音、改字幕、换镜头、调节奏。剪映、CapCut 这类剪辑工具的价值会从“后期编辑器”向“AI 内容生产工作台”演化。
六、行业影响:视频生成的竞争正在从模型走向系统
很多人会把 Seedance 2.5 和 Sora、Veo、Runway、可灵放在同一张表里比较。这样比较当然有意义,但还不够。
AI 视频的终局不只是模型榜单,而是视频生产系统。
OpenAI 的优势在 ChatGPT、Sora 和开发者生态;Google 的优势在 Gemini、Veo、YouTube、广告和云;Runway 更接近专业创作工具;快手可灵有短视频平台和创作者场景;字节的特殊性在于,它同时拥有模型、短视频平台、剪辑工具、广告系统、企业云和内容分发生态。
所以 Seedance 2.5 的战略意义,不只是“字节又发了一个视频模型”,而是它可能成为字节视频生产链路里的底层能力。
如果未来抖音、剪映、即梦、豆包、火山引擎之间形成闭环,Seedance 就不只是一个模型,而会变成从 C 端创作到 B 端营销、从灵感生成到广告投放的一条内容基础设施。
这也是 AI 视频创业公司需要警惕的地方。
通用型“输入文字生成视频”工具,很容易被大模型厂商和平台型产品吸收。更有长期价值的机会,反而在垂直工作流里:电商素材、游戏宣发、教育培训、汽车广告、地产视频、短剧工业化、IP 内容管理、版权合规检测、角色一致性工具、脚本到分镜系统。
工具不是护城河,工作流才可能是护城河。
七、Rocky 的本质判断
Seedance 2.5 最大的意义,不是让视频变长,而是让 AI 视频从“可看”走向“可用”。
可看,靠画质、审美和镜头冲击力。
可用,靠稳定、可控、可编辑、可审核、可批量、可进入生产链路。
30 秒之后,AI 视频真正难的才开始:
- 角色不能漂;
- 动作不能断;
- 镜头不能乱;
- 音画不能脱节;
- 叙事不能散;
- 修改不能全靠重抽;
- 合规不能靠运气;
- 成本不能只适合 demo。
Rocky 的判断是:
Seedance 2.5 如果能稳定实现 30 秒完整视频直出,它对行业最大的冲击,不是让大家少拍几条视频,而是让视频生产从“拍摄优先”,转向“生成优先、编辑兜底、平台分发”的新范式。
未来的视频创作,不会简单变成“人被模型替代”。
更准确地说,它会变成:
不会组织模型的人,会被懂叙事、懂工作流、懂分发、懂商业目标的人替代。
这才是 Seedance 2.5 真正释放的行业信号。
推荐阅读
Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
3. 深入浅出完整解析FLUX.2、Seedream(即梦)、Z-image、GLM-Image核心基础知识
https://zhuanlan.zhihu.com/p/1975174691049189562
4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
5. 深入浅出完整解析DeepSeek系列核心基础知识
6、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识
7、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识
8、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
9、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:深入浅出完整解析Stable Diffusion(SD)核心基础知识
10、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:深入浅出完整解析ControlNet核心基础知识
11、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
12、深入浅出完整解析AIGC时代Transformer核心基础知识
在AIGC时代中,Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向,成为AI技术架构大一统与多模态整合的关键核心基座,大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析:
Transformer文章地址:深入浅出完整解析AIGC时代Transformer核心基础知识
13、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:手把手教你成为AIGC算法工程师,斩获AIGC算法offer!
14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:深入浅出完整解析主流AI绘画框架(ComfyUI、Stable Diffusion WebUI、Fooocus)核心基础知识
16、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
17. AI算法工程师的《三年面试五年模拟》求职秘籍
18. AIGC产业的深度思考与分析
2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。
Rocky也认为,AIGC及其生态,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作、生活、学习以及交流方式,各行各业都将被重新定义,过程会非常有趣。
那么,在此基础上,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解:

2815

被折叠的 条评论
为什么被折叠?



