一、项目介绍
1.1 仓库地址
1.2 项目说明
唇同步,即对现有视频中唇部动作与新输入音频进行对齐的任务,通常被视为音频驱动面部动画的简化版本。然而,除了在头部生成中常见的时序一致性等问题外,唇同步还面临着新的重大挑战,如输入视频中的表情泄露和面部遮挡,这些问题可能会严重影响自动化配音等实际应用,但在现有工作中往往被忽视。为了解决这些不足,我们提出了 KeySync,这是一个两阶段框架,成功解决了时序一致性问题,同时通过精心设计的掩码策略,解决了泄露和遮挡问题。我们表明,KeySync 在唇部重建和跨同步方面达到了最先进的水平,根据我们提出的新的泄露度量 LipLeak,提高了视觉质量并减少了表情泄露。此外,我们展示了我们新的掩码方法在处理遮挡方面的有效性,并通过多次消融研究验证了我们的架构选择。
我们在 https://huggingface.co/spaces/toninio19/keysync-demo 提供了 KeySync 的交互式演示,您可以在那里上传自己的视频和音频文件来创建同步视频。由于 Hugging Face Spaces 对 GPU 的限制,演示仅限于处理最长 6 秒的视频。对于更长的视频或更好的性能,我们建议使用本存储库中提供的推理脚本,在您自己的硬件上本地运行 KeySync。

二、部署项目
2.1 修改依赖(cuda11.8)
如果cuda是11.8,我们需要修改txt中的nvidia开头的版本,默认是12.1的。
2.1.1 删除requirements.txt中模块
facenet-pytorch==2.6.0nvidia-cusparselt-cu12==0.6.2nvidia-nvjitlink-cu12==12.4.127
2.1.2 在requirements.txt增加模块
wheel==0.45.1pip==25.2torch==2.4.1+cu118torchaudio==2.4.1+cu118torchvision==0.19.1+cu118
2.1.2 修改的模块版本
nvidia-cublas-cu11==11.11.3.6nvidia-cuda-cupti-cu11==11.8.87nvidia-cuda-nvrtc-cu11==11.8.89nvidia-cuda-runtime-cu11==11.8.89nvidia-cufft-cu11==10.9.0.58nvidia-curand-cu11==10.3.0.86nvidia-cusolver-cu11==11.4.1.48nvidia-cusparse-cu11==11.7.5.86nvidia-nvtx-cu11==11.8.86
2.2 部署脚本
2.2.1 环境配置
# Create conda environment with necessary dependencies
conda create -n KeySync python=3.11 conda-forge::ffmpeg -y
conda activate KeySync
# Install requirements
git clone https://github.com/antonibigata/keysync.git
cd keysync/
conda activate KeySync
python -m pip install -r requirements.txt --no-deps
# Install PyTorch with CUDA support
conda activate KeySync
# cuda12.1
python -m pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
# cuda11.8
python -m pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu118
# OPTIONAL
git clone https://github.com/facebookresearch/sam2.git && cd sam2
conda activate KeySync
pip install -e . --no-deps
2.2.2 下载预训练模型
sudo apt install git-lfs -y
git lfs install
git clone https://huggingface.co/toninio19/keysync pretrained_models
2.3 部署成功依赖版本
absl-py==2.1.0
accelerate==1.4.0
addict==2.4.0
aiohappyeyeballs==2.4.6
aiohttp==3.11.12
aiosignal==1.3.2
albucore==0.0.23
albumentations==2.0.4
annotated-types==0.7.0
antlr4-python3-runtime==4.9.3
asttokens==3.0.0
attrs==25.1.0
audiomentations==0.39.0
av==12.0.0
bitsandbytes==0.45.3
braceexpand==0.1.7
certifi==2025.1.31
cffi==1.17.1
cfgv==3.4.0
charset-normalizer==3.4.1
click==8.1.8
clint==0.5.1
colorama==0.4.6
coloredlogs==15.0.1
comm==0.2.2
contourpy==1.3.1
cycler==0.12.1
Cython==3.0.12
debugpy==1.8.12
decorator==4.4.2
decord==0.6.0
deepspeed==0.16.3
diffusers==0.24


1144

被折叠的 条评论
为什么被折叠?



