AI数字人：AI数字人制作初探及相关开源简介

文章目录

- @[toc]
- 简介
- 一、SadTalker
- 二、Wav2Lip
- 三、Thin-Plate Spline Motion Model
- 四、Real_Time_Image_Animation
- 五、Text2Speech
- 六、语言模型
- 其他

简介

数字人这名字听着稀奇又别扭，其实它最初的原型大家都听过——NPC。玩过游戏的应该都知道，也就是游戏内玩家操纵的游戏角色，可以和玩家进行交互的角色。广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字人，在平常的观感上，数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。他通过对人物形象的复制模拟，人物声音的克隆及语音合成，可随时随地与真人进行准确交互性对话。

通俗的讲所谓数字人，本质上是AI的一种进化，是通过计算机图形学技术进行虚拟制作的类人形象，没有现实世界中的身体。数字人的本体存在于计算设备中（比如电脑、手机）中，通过显示设备呈现出来，让人类能通过眼睛看见。它具备人类的外观和行为模式，数字人具有人类身体的外观形体结构，表现出来的行为模式是与人类相仿的，数字人的影像通常是呈现出某种人类的活动。

下面收集了几个开源的数字人项目，整理出来了，大家一起学习，希望对大家有所帮助。

一、SadTalker

https://github.com/OpenTalker/SadTalker

它可以通过音频驱动图像，生成真实感的3D人脸动画，使得人物可以“开口说话”。

而且，非常方便的是，可以直接集成到stable-diffusion-webui

一张图 + 音频 => 视频, 我找了2张图，一段音频，跑了2次。结果还不错，口型几乎都是吻合的。

二、Wav2Lip

https://github.com/Rudrabha/Wav2Lip

将视频与任何目标语音进行口型同步
适用于任何身份，声音和语言。也适用于CGI人脸和合成语音。
你可以自己训练、或者使用预训练模型

原视频 + 音频 => 新视频，这是一个2020年启动的项目，有段时间没有更新，但是如果有需要，还是值得看看的。

三、Thin-Plate Spline Motion Model

https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model.git

使用视频，驱动静态图片。“让任何图片开口，讲任何话”。

再看一个视频交流互动的例子

四、Real_Time_Image_Animation

https://github.com/anandpawara/Real_Time_Image_Animation

就像项目名称所说的，支持实时驱动静态图像，生成视频/视频流。没错，支持实时摄像头！

总结一下，“你可以让任何图片说任何话”，“你可以让任何人说任何话。”

五、Text2Speech

文本生成音频。已经相对比较成熟了，像讯飞，微软，很多人一直在使用他们的产品。

六、语言模型

这个就很多了，从国内到国外，太多了，有的人都说千模大战了。ChatGPT，GPT4，GPT5，文心，星火，源，盘古。有了语言模型，人物有了自己的“精神世界”，可以训练特定的人物语言风格，你可以与数字人对话交流，再使用文本生成相应的音频，然后使用音频驱动图片，产生人物表情、姿态，甚至动作，从而最终实现视频交流。比如，你可以在头条上看到的24小时数字人新闻直播：

因为这个不需要互动，基本上信息收集 + 缓冲队列 + 画面音频驱动就可以实现了。而想要达到实时互动的效果，比如视频聊天机器人，需要生成计算人物表情甚至动作，延迟是少不了，而且现有技术条件下，需要消耗巨大的算力，一般的公司或者个人无法承担。除非有牛X的创新的技术出现。因此，你会看到，包括不久前的character AI，拥有相当多的角色人物，但是只能响应文本内容…