Open AI 的 Sora 是什么？它是如何工作的？应用场景、风险、替代方案、未来意义等

探索 OpenAI 的 Sora：一种突破性的文本到视频 AI，将在 2024 年彻底改变多模态人工智能。探索其功能、创新和潜在影响。

OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止，这种文本到视频的生成人工智能模型看起来令人难以置信，为许多行业带来了巨大的潜力。

一、Sora 是什么？

Sora 是 OpenAI 的文本到视频生成人工智能模型。这意味着编写一个文本提示，它会创建一个与提示描述相匹配的视频。以下是 OpenAI 网站上的示例：

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

二、OpenAI Sora 的示例

OpenAI 与其首席执行官 Sam Altman 一直忙于分享 Sora 的实际应用示例。我们已经看到了一系列不同的风格和示例，包括：

2.1 动画示例

提示词：一个渲染华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物。

提示词：动画场景的特写是一个毛茸茸的小怪物跪在融化的红色蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

2.2 城市景观示例

提示词：美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

提示词：穿越未来城市的街头之旅，与自然和谐相处，同时又充满赛博朋克/高科技。城市应该是干净的，有先进的未来有轨电车、美丽的喷泉、随处可见的巨型全息图、到处都是机器人。让视频是来自未来的人类导游向一群外星外星人展示人类有能力建造的最酷、最辉煌的城市。

2.3 动物示例

提示词：两只金毛猎犬在山顶上播客。

提示词：在海洋上举行自行车比赛，运动员在无人机摄像机视图下骑着自行车，不同的动物。

三、Sora 是如何工作的？

与 DALL·E 3、StableDiffusion 和 Midjourney 等文本到图像生成 AI 模型一样，Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始，并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。 Sora 视频最长可达 60 秒。

以下是一些关键技术点：

3.1 解决时间一致性问题

Sora 的一个创新领域是它同时考虑多个视频帧，这解决了物体移入和移出视野时保持物体一致的问题。在下面的视频中，请注意袋鼠的手多次移出镜头，当它返回时，手看起来与之前相同。

提示词：卡通袋鼠跳迪斯科舞。

3.2 结合扩散模型和Transformer

这一点 Sora 和 GPT 类似，将扩散模型与Transformer 架构结合起来。

在结合这两种模型类型时，扩散模型非常擅长生成低级纹理，但在全局合成方面较差，而Transformer 则存在相反的问题。也就是说，需要一个类似 GPT 的转换器模型来确定视频帧的高级布局，并需要一个扩散模型来创建细节。

在一篇有关 Sora 实现的技术文章中，OpenAI 提供了这种组合如何工作的高级描述。在扩散模型中，图像被分解为更小的矩形“块”。对于视频来说，这些补丁是三维的，因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“标记”：它们不是句子的组成部分，而是一组图像的组成部分。模型的转换器部分组织补丁，模型的扩散部分生成每个补丁的内容。

这种混合架构的另一个缺点是，为了使视频生成在计算上可行，创建补丁的过程使用降维处理，这样就不需要对每个帧的每个像素进行计算。

3.3 通过重述提高视频保真度

为了忠实地捕捉用户提示词的本质，Sora 使用了DALL·E 3 中的重述技术。这意味着在创建任何视频之前，GPT 用于重写用户提示词以包含更多细节。本质上，它是自动提示工程的一种形式。

四、Sora的局限性是什么？

OpenAI 注意到当前版本的 Sora 的一些限制。Sora对物理学没有隐式的理解，因此生成的视频可能有时不符合现实世界的物理规则。

一个例子是模型不理解因果关系。例如，在下面的篮球筐爆炸视频中，篮筐爆炸后，网似乎恢复了。

提示词：篮球穿过篮筐然后爆炸。

类似地，物体的空间位置可能会不自然地移动。在下面的狼崽视频中，动物凭空出现，而且狼的位置有时会重叠。

提示词：五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐，周围都是草丛。幼崽们又跑又跳，互相追逐、互相咬咬，玩耍着。

4.1 有关可靠性的未解答问题

Sora 的可靠性目前尚不清楚。 OpenAI 的所有示例质量都非常高，但尚不清楚其中涉及多少精挑细选。使用文本转图像工具时，通常会创建十到二十张图像，然后选择最好的一张。目前尚不清楚 OpenAI 团队生成了多少图像才能获得其公告文章中显示的视频。如果需要生成数百或数千个视频才能获得单个可用视频，这将非常低效。要回答这个问题，我们必须等到该工具被广泛使用。

五、Sora 有哪些应用场景？

Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。

就像文本到图像生成人工智能工具使无需图像编辑专业知识的图像创建变得更加容易一样，Sora 承诺使无需图像编辑经验的视频创建变得更加容易。以下是一些关键用例。

5.1 社交媒体

Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短片。难以拍摄或无法拍摄的内容尤其适合。例如，拍摄 2056 年拉各斯的场景在技术上很难用于社交帖子，但使用 Sora 就可以轻松创建。

提示词：一段精美的自制视频，展示 2056 年尼日利亚拉各斯的人们。用手机摄像头拍摄。

5.2 广告与营销

传统上，制作广告、宣传视频和产品演示的成本很高。像 Sora 这样的文本转视频人工智能工具有望使这一过程变得更加便宜。在下面的示例中，想要宣传加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头，或者他们可以使用人工智能，从而节省时间和金钱。

提示词：无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举，悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。

5.3 原型设计和概念可视化

即使最终产品中未使用人工智能视频，它也有助于快速展示想法。电影制作人可以在拍摄前使用人工智能来制作场景模型，设计师可以在构建产品之前创建产品视频。在下面的示例中，玩具公司可以先生成新海盗船玩具的 AI 模型，然后再大规模创建它们。

提示词：逼真的特写视频，展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。

5.4 综合数据生成

合成数据通常用于因隐私或可行性问题而无法使用真实数据的情况。对于数字数据，常见用例是财务数据和个人身份信息。必须严格控制对这些数据集的访问，但您可以创建具有类似属性的合成数据以供公众使用。

合成视频数据的一种用途是用于训练计算机视觉系统。比如美国空军使用合成数据来提高无人机计算机视觉系统的性能，以在夜间和恶劣天气下检测建筑物和车辆。 Sora 等工具使这一过程变得更加便宜，并且更容易为更广泛的受众所接受。

六、Sora有哪些风险？

该产品是新产品，因此尚未完全描述风险，但它们可能与文本到图像模型的风险类似。

6.1 有害内容的产生

如果没有适当的护栏，Sora 就有能力生成令人厌恶或不适当的内容，包括包含暴力、血腥、露骨色情材料、对人群的贬损描述和其他仇恨图像以及宣扬或美化非法活动的视频。

根据用户（考虑使用 Sora 的儿童与成人）和视频生成的背景（有关烟花危险的视频警告很容易以教育方式变得血腥），构成不当内容的内容有很大差异。

6.2 错误信息和虚假信息

根据 OpenAI 分享的示例视频，Sora 的优势之一是能够创建现实生活中不可能存在的奇幻场景。这种优势还使得创建“深度伪造”视频成为可能，其中真实的人或情况被改变为不真实的东西。

当此内容被呈现为真相时，无论是意外（错误信息）还是故意（虚假信息），都可能会导致问题。

正如 DigiDiplomacy 首席人工智能治理和道德官 Eske Montoya Martinez van Egerschot所写，“人工智能正在重塑竞选策略、选民参与度以及选举诚信的基础。”

政客或政客对手的令人信服但虚假的人工智能视频有能力“战略性地传播虚假叙述，并通过骚扰瞄准合法来源，旨在破坏对公共机构的信心并培养对不同国家和人群的敌意”。

今年发生了从台湾到印度再到美国的许多重要选举，这会产生广泛的影响。

6.3 偏见和刻板印象

生成式人工智能模型的输出高度依赖于其训练的数据。这意味着训练数据中的文化偏见或刻板印象可能会导致生成的视频出现相同的问题。正如 Joy Buolamwini 在DataFramed 的“为算法正义而战”一集中所讨论的那样，图像中的偏见可能会对招聘和治安产生严重后果。

七、如何访问Sora？

Sora 目前仅对 “红队” 研究人员开放。也就是说，专家的任务是尝试识别模型的问题。例如，他们将尝试生成具有上一节中确定的一些风险的内容，以便 OpenAI 可以在向公众发布 Sora 之前缓解这些问题。

OpenAI 尚未指定 Sora 的公开发布日期，不过可能是 2024 年的某个时间。

八、Sora 的替代品是什么？

Sora 有几种备受瞩目的替代方案，允许用户从文本创建视频内容。这些包括：

Runway-Gen-2。 最引人注目的 OpenAI Sora 替代品是Runway Gen-2。与 Sora 一样，这是一种文本到视频生成人工智能，目前可在网络和移动设备上使用。
Lumiere。 Google 最近发布了Lumiere，目前可作为PyTorch 深度学习 Python 框架的扩展。
Make-a-Video。 Meta 将于 2022 年推出Make-a-Video；同样，这可以通过 PyTorch扩展获得。

还有几个较小的竞争对手：

Pictory 简化了文本到视频内容的转换，通过其视频生成工具瞄准内容营销人员和教育工作者。
Kapwing 提供了一个从文本创建视频的在线平台，强调社交媒体营销人员和休闲创作者的易用性。
Synthesia 专注于从文本创建人工智能驱动的视频演示，为商业和教育目的提供可定制的头像主导视频。
HeyGen旨在简化产品和内容营销、销售推广和教育的视频制作。
Steve AI 提供了一个 AI 平台，可以生成从提示到视频、脚本到视频、音频到视频的视频和动画。
Elai 专注于电子学习和企业培训，提供轻松将教学内容转化为信息视频的解决方案

型号/平台	开发商/公司	平台可用性	目标用户	主要特征
Runway Gen-2	Runway	Web, Mobile	广泛（一般用途）	高颜值文字转视频AI，人性化
Lumiere	Google	PyTorch 扩展	开发人员、研究人员	为 PyTorch 用户提供高级文本到视频生成功能
Make-a-Video	Meta	PyTorch 扩展	创作者、研究人员	从文本生成高质量视频
Pictory	Pictory	Web	内容营销人员、教育工作	简化文本到视频的转换，以实现引人入胜的叙述
Kapwing	Kapwing	Web	社交媒体营销人员、休闲创作者	从文本创建视频的平台
Synthesia	Synthesia	Web	企业、教育工作者	由人工智能驱动的头像主导的文本视频演示
HeyGen	HeyGen	Web	营销人员、教育工作者	用于销售和营销的视频生成
Steve AI	Steve AI	Web	企业、个人	为各种应用程序创建视频和动画
Elai	Elai	Web	电子学习、企业培训	将教学内容转化为视频

九、OpenAI Sora 对未来意味着什么？

毫无疑问，Sora 具有开创性，这种生成模型的潜力是巨大的。 Sora对人工智能行业和世界有何影响？当然，我们只能做出有根据的猜测。然而，以下是Sora可能改变事物的一些方式，无论是好是坏。

9.1 OpenAI Sora 的短期影响

让我们首先看一下 Sora 在（可能分阶段）向公众推出后可能会产生的直接、短期影响。

9.1.1 一波速胜

在上面的部分中，我们已经探讨了 Sora 的一些潜在用例。如果 Sora 发布供公众使用，其中许多可能会得到快速采用。这可能包括：

社交媒体和广告短片视频的激增。 希望 X（以前称为 Twitter）、TikTok、LinkedIn 和其他平台上的创作者能够通过 Sora 作品提高内容的质量。
采用 Sora 进行原型设计。 无论是展示新产品还是展示拟议的建筑开发，Sora 都可以成为提出想法的常见工具。
改进了数据叙事。 文本到视频的生成人工智能可以为我们提供更生动的数据可视化、更好的模型模拟以及探索和呈现数据的交互方式。也就是说，了解 Sora 在这些类型的提示上的表现非常重要。
更好的学习资源。 有了 Sora 这样的工具，学习材料可以大大增强。复杂的概念可以变成现实，而更多的视觉学习者有机会获得更好的学习辅助工具。

9.1.2 风险雷区

当然，正如我们之前强调的那样，此类技术存在一系列潜在的负面影响，我们必须克服这些负面影响。以下是我们必须警惕的一些风险：

错误信息和虚假信息的传播。 总的来说，我们必须更加敏锐地识别我们消费的内容，并且我们需要更好的工具来发现制造或操纵的内容。这在选举年尤其重要。
侵犯版权。 我们需要注意我们的图像和肖像的使用方式。可能需要立法和控制措施来防止我们的个人数据以未经我们同意的方式使用。当粉丝开始根据他们最喜欢的电影系列制作视频时，这场争论很可能首先展开——也就是说，这里的个人风险也很大。
监管和道德挑战。 事实证明，监管机构已经难以跟上生成式人工智能的进步，而 Sora 可能会加剧这一问题。我们必须在不影响个人自由或扼杀创新的情况下妥善、公平地使用 Sora。
对技术的依赖。 像 Sora 这样的工具对于许多人来说可以被视为捷径，而不是助手。人们可能会将其视为创造力的替代品，这可能会对许多行业以及在这些行业工作的专业人士产生影响。

9.1.3 生成视频成为下一个竞争前沿

我们已经提到了 Sora 的几个替代方案，但我们预计这个列表在 2024 年及以后将会显着增长。正如我们在 ChatGPT 中看到的那样，竞争位置的替代方案列表不断增加，并且许多项目都在市场上的开源LLMs上进行迭代。

Sora 很可能是继续推动生成人工智能领域创新和竞争的工具。无论是通过针对特定用途的微调模型还是直接竞争的专有技术，该行业的许多大公司可能都希望在文本到视频的业务中分一杯羹。

9.2 OpenAI Sora 的长期影响

随着 OpenAI 的 Sora 公开发布后尘埃落定，我们将开始看到更长期的未来。随着各行各业的专业人士掌握该工具，Sora 不可避免地会出现一些改变游戏规则的用途。让我们推测一下其中一些可能是什么：

9.2.1 可以解锁高价值用例

Sora（或类似工具）有可能成为多个行业的支柱：

高级内容创建。 我们可以将 Sora 视为一种加速 VR 和 AR、视频游戏甚至电视和电影等传统娱乐领域制作的工具。即使它不直接用于创建此类媒体，它也可以帮助原型和故事板创意。
个性化娱乐。 当然，我们可以看到 Sora 创建和策划专门为用户量身定制的内容的实例。根据个人品味和偏好定制的交互式和响应式媒体可能会出现。
个性化教育。 同样，这种高度个性化的内容可以在教育领域找到一席之地，帮助学生以最适合他们需求的方式学习。
实时视频编辑。 视频内容可以实时编辑或重新制作，以适应不同的观众，根据观众的喜好或反馈调整语气、复杂性甚至叙事等方面。

9.2.2 物理世界和数字世界之间的界限开始模糊

我们已经接触过虚拟现实 (VR) 和增强现实 (AR)，但 Sora 与这些媒体结合后有可能彻底改变我们与数字内容的交互方式。如果 Sora 的未来迭代能够生成可以在几秒钟内居住的高质量虚拟世界，并利用生成文本和音频来填充看似真实的虚拟角色，这就会引发一个严重的问题：在数字世界中导航意味着什么？未来。

总之，OpenAI 的 Sora 模型有望在生成视频的质量方面实现飞跃。即将发布的版本及其在各个领域的潜在应用备受期待。

文章版权归作者所有，未经允许请勿转载。

THE END