视频扩散模型介绍 Video Diffusion Models Introduction

视频扩散模型介绍 Video Diffusion Models Introduction

  • Diffusion 扩散模型中的一些概念
    • DDPM
    • DDIM
    • CLIP
    • Latent Diffusion
    • Stable Diifusion
    • LoRA
    • DreamBooth
    • ControlNet
  • 视频生成
    • 评估标准
      • 图片层面
      • 视频层面
    • 前人的工作
      • Make-A-Video
      • Align your Latents
    • 开源视频生成模型
      • ModelScopeT2V(阿里)
      • Show-1
      • VideoCrafter(tx)
      • LaVie
      • Stable Video Diffusion
    • 高效的生成方法
      • AnimateDiff
      • Text2Video-Zero 无需训练
      • 其他
    • Storyboard
      • VisorGPT
      • VideoDirectorGPT
      • Long-form Video Prior
      • 其他工作
    • 长视频生成
      • NUWA-XL
  • Video Editing
    • Tuning-based
      • Tune-A-Video
      • Dreamix
    • Training-Free
      • TokenFlow
      • FateZero
      • 其他工作
    • Controlled Editing
      • Gen-1
      • Pix2Video
      • ControlVideo
      • VideoControlNet
      • CCEdit
      • VideoComposer
      • 其他工作
      • Pose Control姿态控制
        • MagicAnimate
      • PointControl
    • 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
图片[1] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[2] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

去噪器,预测出来噪声然后与原始图片相减,得到干净的图片

图片[3] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”
图片[4] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

DDIM

跳步
图片[5] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
DDIM和DDPM作对比:
图片[6] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[7] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

CLIP

图片[8] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Latent Diffusion

不是直接在像素空间进行操作,多了编码解码,在latent空间操作加噪和去噪过程
图片[9] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Stable Diifusion

图片[10] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

LoRA

微调
图片[11] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

DreamBooth

图片[12] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

ControlNet

图片[13] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[14] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

视频生成

一些已有的工作分类
图片[15] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
3D可以分成(2+1),就是从图片生成到视频生成的一种思路
图片[16] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

早期工作:
图片[17] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
解码器+插帧+超分辨率模块
图片[18] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[19] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[20] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

评估标准

图片[21] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片层面

语义相似度
图片[22] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

像素相似度
图片[23] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[24] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[25] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

视频层面

视频生成的质量和多样性
图片[26] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

一致性
图片[27] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[28] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

组合评估
图片[29] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

前人的工作

Make-A-Video

图片[30] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[31] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Align your Latents

图片[32] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

开源视频生成模型

ModelScopeT2V(阿里)

图片[33] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[34] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

可变temporal attention
图片[35] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

下面是模型效果,ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
图片[36] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Show-1

图片[37] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

VideoCrafter(tx)

图片[38] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

LaVie

图片[39] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Stable Video Diffusion

数据处理
图片[40] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[41] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
训练过程:
先初始化参数
图片[42] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
训练过程
图片[43] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

fine-tune阶段
图片[44] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

图片[45] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[46] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[47] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[48] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Text2Video-Zero 无需训练

动机:如何在不用fine-tune的情况下使用Stable Diffusion

做法:给定第一帧noise后,人为定义全局scene motion

图片[49] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[50] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[51] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

其他

图片[52] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Storyboard

前面生成的视频都是几秒钟长度的视频,如果时间要增长,有哪些工作做了

文本->电影脚本->视频

VisorGPT

图片[53] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[54] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

VideoDirectorGPT

图片[55] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Long-form Video Prior

图片[56] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

其他工作

图片[57] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

长视频生成

NUWA-XL

图片[58] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[59] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Video Editing

图片[60] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Tuning-based

Tune-A-Video

图片[61] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[62] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Sparse-Casual的attention方式节约内存空间,只跟第一帧和前一帧做attention
图片[63] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[64] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[65] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Dreamix

图片[66] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

图片[67] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Training-Free

TokenFlow

图片[68] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

FateZero

图片[69] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

其他工作

图片[70] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Controlled Editing

Gen-1

图片[71] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Pix2Video

Control场景里也有不需要训练的方法
图片[72] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

ControlVideo

另外一种不需要训练的方法
图片[73] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[74] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[75] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

VideoControlNet

CCEdit

图片[76] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

VideoComposer

图片[77] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

其他工作

图片[78] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

Pose Control姿态控制

MagicAnimate

图片[79] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

PointControl

比如图中想把猫换成狗但是背景保留

图片[80] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[81] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[82] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

只在关键帧标注
图片[83] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL
图片[84] - 视频扩散模型介绍 Video Diffusion Models Introduction - MaxSSL

3D-Aware

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享