嘴型融合 wav2lip 升级版

环境

windows 10 64bit
wav2lip-hq
pytorch 1.12.1+cu113

前言

前面的博文嘴型同步模型Wav2Lip，介绍了嘴型同步模型，本篇介绍的是 wav2lip 的高清版，在原有基础上，使用了超分辨率图像和人脸分割技术，来提升整体效果。

实践

首先，拉取源码

gitclonehttps://github.com/Markfryazino/wav2lip-hq.gitcdwav2lip-hq#创建个新的虚拟环境condacreate-nwav2liphqpython=3.8condaactivatewav2liphq#安装torchpip3installtorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/whl/cu113#安装其它依赖库，将其中的torch、torchvision注释掉，前面已经安装了gpu版本pipinstall-rrequirements.txt

然后去下载模型，这里需要3个模型，第一个下载地址：https://drive.google.com/file/d/1aB-jqBikcZPJnFrJXWUEpvF2RFCuerSe/view?usp=sharing ，下载后拷贝到目录 checkpoints 下面；第二个模型是人脸的模型，下载地址：https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth，下载后拷贝到 face_detection/detection/sfd 目录下，并重命名为 s3fd.pth；第三个是脸部的 segmentation 模型，下载地址：https://drive.google.com/open?id=154JgKpzCPW82qINcVieuPH3fZ2e0P812，拷贝到 checkpoints 目录下，并重命名为 face_segmentation.pth

最后，我们准备一个音频文件和一个视频文件来进行测试，执行命令

python.exeinference.py--checkpoint_pathcheckpoints\wav2lip_gan.pth--segmentation_pathcheckpoints\face_segmentation.pth--sr_pathcheckpoints\esrgan_yunying.pth--facetest.mp4--audiotest.mp3--outfileoutput.mp4

参考资料

https://github.com/Markfryazino/wav2lip-hq
https://github.com/zllrunning/face-parsing.PyTorch.git
https://github.com/xinntao/BasicSR.git
https://github.com/1adrianb/face-alignment
嘴型同步模型Wav2Lip

嘴型融合 wav2lip 升级版

环境

前言

实践

参考资料

最新关注

热文推荐

【赠书活动】如何让AI在企业多快好省的落地

猿创征文 | 国产数据库之人大金仓数据库详解安装和使用

【从入门到起飞】JavaAPI—System，Runtime，Object，Objects类

vmware vsphere用户权限分级

深入ArkUI：深入实战组件text和text input

在GPU上运行pytorch程序（指定单/多显卡)

嘴型融合 wav2lip 升级版

环境

前言

实践

参考资料

相关文章

最新关注

热文推荐