stable diffusion 能不能生成视频?

最新推荐文章于 2026-05-21 10:24:54 发布

原创

最新推荐文章于 2026-05-21 10:24:54 发布 · 2.6k 阅读

标签

#stable diffusion #音视频

收录于

Stable Diffusion 本身是图像生成模型，但结合扩展工具或变体模型可以实现视频生成功能。以下是目前主流的实现方法和具体操作步骤：

一、使用 Stable Video Diffusion (SVD) 生成视频
特点：官方推出的视频生成模型，支持图生视频（14或25帧），效果连贯性较好，但需要较高显存（建议48G以上）。

操作步骤：
环境准备：
安装 Python 3.10+ 和 PyTorch 2.0+，确保 CUDA 环境正常。
下载模型文件：
从 Hugging Face 下载 stable-video-diffusion-img2vid-xt 模型权重和配置文件（如 svd_xt.yaml ）。
下载 CLIP 模型 ViT-L-14.pt 用于图像预处理。

代码配置：

示例代码（需参考官方GitHub调整）

from PIL import Image
from generative_models import StableVideoDiffusionPipeline

pipe = StableVideoDiffusionPipeline.from_pretrained(
“path/to/svd_xt”,
torch_dtype=torch.float16,
variant=“fp16”
)
pipe.enable_model_cpu_offload() # 显存不足时启用

image = Image.open(“input.jpg”).resize((1024, 576)) # 调整图片尺寸
frames = pipe(image, num_frames=25, decode_chunk_size=8).frames
frames[0].save(“output.gif”, save_all=True, append_images=frames[1:], loop=0)
运行与优化：
输入图片分辨率建议为 1024x576 或更低以节省显存。
调整