视频扩散模型介绍 Video Diffusion Models Introduction

  • Diffusion 扩散模型中的一些概念
    • DDPM
    • DDIM
    • CLIP
    • Latent Diffusion
    • Stable Diifusion
    • LoRA
    • DreamBooth
    • ControlNet
  • 视频生成
    • 评估标准
      • 图片层面
      • 视频层面
    • 前人的工作
      • Make-A-Video
      • Align your Latents
    • 开源视频生成模型
      • ModelScopeT2V(阿里)
      • Show-1
      • VideoCrafter(tx)
      • LaVie
      • Stable Video Diffusion
    • 高效的生成方法
      • AnimateDiff
      • Text2Video-Zero 无需训练
      • 其他
    • Storyboard
      • VisorGPT
      • VideoDirectorGPT
      • Long-form Video Prior
      • 其他工作
    • 长视频生成
      • NUWA-XL
  • Video Editing
    • Tuning-based
      • Tune-A-Video
      • Dreamix
    • Training-Free
      • TokenFlow
      • FateZero
      • 其他工作
    • Controlled Editing
      • Gen-1
      • Pix2Video
      • ControlVideo
      • VideoControlNet
      • CCEdit
      • VideoComposer
      • 其他工作
      • Pose Control姿态控制
        • MagicAnimate
      • PointControl
    • 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程

去噪器,预测出来噪声然后与原始图片相减,得到干净的图片


当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”

DDIM

跳步

DDIM和DDPM作对比:

CLIP

Latent Diffusion

不是直接在像素空间进行操作,多了编码解码,在latent空间操作加噪和去噪过程

Stable Diifusion

LoRA

微调

DreamBooth

ControlNet

视频生成

一些已有的工作分类

3D可以分成(2+1),就是从图片生成到视频生成的一种思路

早期工作:

解码器+插帧+超分辨率模块


评估标准

图片层面

语义相似度

像素相似度


视频层面

视频生成的质量和多样性

一致性

组合评估

前人的工作

Make-A-Video


Align your Latents

开源视频生成模型

ModelScopeT2V(阿里)


可变temporal attention

下面是模型效果,ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的

Show-1

VideoCrafter(tx)

LaVie

Stable Video Diffusion

数据处理


训练过程:
先初始化参数

训练过程

fine-tune阶段

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train


Text2Video-Zero 无需训练

动机:如何在不用fine-tune的情况下使用Stable Diffusion

做法:给定第一帧noise后,人为定义全局scene motion



其他

Storyboard

前面生成的视频都是几秒钟长度的视频,如果时间要增长,有哪些工作做了

文本->电影脚本->视频

VisorGPT


VideoDirectorGPT

Long-form Video Prior

其他工作

长视频生成

NUWA-XL


Video Editing

Tuning-based

Tune-A-Video


Sparse-Casual的attention方式节约内存空间,只跟第一帧和前一帧做attention


Dreamix

Training-Free

TokenFlow

FateZero

其他工作

Controlled Editing

Gen-1

Pix2Video

Control场景里也有不需要训练的方法

ControlVideo

另外一种不需要训练的方法


VideoControlNet

CCEdit

VideoComposer

其他工作

Pose Control姿态控制

MagicAnimate

PointControl

比如图中想把猫换成狗但是背景保留



只在关键帧标注

3D-Aware