新的风口：继ChatGPT热潮后,OpenAI又推出视频生成新浪潮

先来总结

如果非要用三个词来总结Sora，那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”。

官网：https://openai.com/sora

首页：

官网首页

介绍：

官网介绍

翻译后内容：

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

以下内容来源于OpenAI官网：

https://openai.com/research/video-generation-models-as-world-simulators#fn-19

用于视频生成的缩放变压器

Sora是一个扩散模型;给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的“干净”补丁。重要的是，Sora 是一个扩散变压器。Transformer 在各个领域都表现出了卓越的扩展特性，包括语言建模、计算机视觉和图像生成。

噪声补丁示意图

效果：

不同模式下的视频效果截图

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如，分辨率为 256×256 的 4 秒视频。我们发现，对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 – 所有这些都使用相同的模型。

不同宽高比下视频截图

通过图像和视频进行提示

上面的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 – 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于DALL·E 2生成的示例视频和达尔·E 3图片。

一只戴着贝雷帽和黑色高领毛衣的柴犬。

上面图片生成的视频如下：

一只戴着贝雷帽和黑色高领毛衣的柴犬

在一座华丽的历史大厅里，巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机，熟练地驾驭海浪。

驾驭海浪

上面图片生成的视频：

在一座华丽的历史大厅里，巨大的浪潮达到顶峰并开始崩塌。两名冲

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从生成的视频片段开始向后延伸的。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。

不同时间的扩展视频效果截图

视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法，SDEdit，到索拉。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

编辑视频操作

编辑后生成视频的效果

将视频时间设置为冬天生成视频截图

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

将两个视频连接后的效果图

左右两个原始视频，中间是连接后视频截图

图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048×2048。

新兴的模拟功能

我们发现，视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。 Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。

动态摄像机运动视频截图

远程相干性和物体持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。