视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

视频扩散模型介绍 Video Diffusion Models Introduction

10个月前发布

00

视频扩散模型介绍 Video Diffusion Models Introduction

Diffusion 扩散模型中的一些概念
- DDPM
- DDIM
- CLIP
- Latent Diffusion
- Stable Diifusion
- LoRA
- DreamBooth
- ControlNet
视频生成
- 评估标准
- - 图片层面
  - 视频层面
- 前人的工作
- - Make-A-Video
  - Align your Latents
- 开源视频生成模型
- - ModelScopeT2V（阿里）
  - Show-1
  - VideoCrafter（tx）
  - LaVie
  - Stable Video Diffusion
- 高效的生成方法
- - AnimateDiff
  - Text2Video-Zero 无需训练
  - 其他
- Storyboard
- - VisorGPT
  - VideoDirectorGPT
  - Long-form Video Prior
  - 其他工作
- 长视频生成
- - NUWA-XL
Video Editing
- Tuning-based
- - Tune-A-Video
  - Dreamix
- Training-Free
- - TokenFlow
  - FateZero
  - 其他工作
- Controlled Editing
- - Gen-1
  - Pix2Video
  - ControlVideo
  - VideoControlNet
  - CCEdit
  - VideoComposer
  - 其他工作
  - Pose Control姿态控制
  - - MagicAnimate
  - PointControl
- 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程

去噪器，预测出来噪声然后与原始图片相减，得到干净的图片

当然，去噪过程是逐步的，所以减去之后会重新加上“平均噪声”

DDIM

跳步

DDIM和DDPM作对比：

CLIP

Latent Diffusion

不是直接在像素空间进行操作，多了编码解码，在latent空间操作加噪和去噪过程

Stable Diifusion

LoRA

微调

DreamBooth

ControlNet

视频生成

一些已有的工作分类

3D可以分成（2+1），就是从图片生成到视频生成的一种思路

早期工作：

解码器+插帧+超分辨率模块

评估标准

图片层面

语义相似度

像素相似度

视频层面

视频生成的质量和多样性

一致性

组合评估

前人的工作

Make-A-Video

Align your Latents

开源视频生成模型

ModelScopeT2V（阿里）

可变temporal attention

下面是模型效果，ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的

Show-1

VideoCrafter（tx）

LaVie

Stable Video Diffusion

数据处理

训练过程：
先初始化参数

训练过程

fine-tune阶段

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

Text2Video-Zero 无需训练

动机：如何在不用fine-tune的情况下使用Stable Diffusion

做法：给定第一帧noise后，人为定义全局scene motion

其他

Storyboard

前面生成的视频都是几秒钟长度的视频，如果时间要增长，有哪些工作做了

文本->电影脚本->视频

VisorGPT

VideoDirectorGPT

Long-form Video Prior

其他工作

长视频生成

NUWA-XL

Video Editing

Tuning-based

Tune-A-Video

Sparse-Casual的attention方式节约内存空间，只跟第一帧和前一帧做attention

Dreamix

Training-Free

TokenFlow

FateZero

其他工作

Controlled Editing

Gen-1

Pix2Video

Control场景里也有不需要训练的方法

ControlVideo

另外一种不需要训练的方法

VideoControlNet

CCEdit

VideoComposer

其他工作

Pose Control姿态控制

MagicAnimate

PointControl

比如图中想把猫换成狗但是背景保留

只在关键帧标注

3D-Aware

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐