什么是生成式人工智能？

近年来，人工智能取得了重大进展，其中发展迅速的领域之一就是生成式人工智能。生成式人工智能是人工智能和深度学习的一个子领域，主要使用机器学习技术根据现有数据训练算法和模型，生成诸如图像、文本、音乐、视频等新内容。

要更好地理解人工智能、机器学习、深度学习和生成式人工智能之间的关系，如果我们将人工智能视为基础，那么机器学习、深度学习和生成式人工智能就代表着日益专业化和聚焦的研究与应用领域。

● 人工智能代表着广阔的领域创意生产系统—这些系统可以执行任务，表现出与人类相当的智力和能力，并能与生态系统交互。

● 机器学习是人工智能领域一个专注于创建算法和模型的分支，这些模型和算法使得上述系统能够随着训练学习实现自我改进。机器学习模型从现有数据中学习，并会随着数据的增长自动更新参数。

● 深度学习是机器学习的一个子分支。深度机器学习模型指的是神经网络（Neural Network），尤其适用于计算机视觉（Computer Vision，CV）或自然语言处理（Natural Language Processing，NLP ）等领域。本书提到的机器学习模型和深度学习模型一般是指判别式模型，可根据数据进行预测或推理。

● 生成式人工智能是深度学习的一个子分支，不使用深度神经网络来聚类、分类或对现有数据进行预测，而使用强大的神经网络模型生成图像、文字表述、音乐和视频等新的内容。

图 1.1 形象地展示了这些概念之间的关系。

图 1.1 人工智能、机器学习、深度学习和生成式人工智能之间的关系

你可以通过大量数据训练生成式人工智能模型，再利用这些数据中的模式生成全新样本。这一生成过程不同于判别式模型，因为后者旨在预测给定样本的类别或标签。

1.1.1 生成式人工智能的应用

近年来，生成式人工智能取得了显著的进展，并广泛应用于艺术、音乐、时尚、建筑等多个领域。在某些领域中，生成式人工智能逐渐改变着原创者创造、设计甚至理解世界的方式；而在另一些领域中，其正在现有流程和操作的优化和效率的提升方面大显身手。

生成式人工智能的广泛应用，还意味着其模型可以处理不同类型的数据，例如文本、音频或图像。接下来，我们会介绍如何使用生成式人工智能模型处理不同类型的数据。

1.1.2 文本生成

生成式人工智能的伟大应用之一是根据自然语言生成新内容，这也是本书重点介绍的应用。事实上，生成式人工智能算法可以用于生成新的文本，如文章、诗歌和产品描述。例如，OpenAI 开发的 GPT-3 语言模型在经过大量文本数据训练后，可以生成以不同语言表述的连贯且符合语法规则的新文本（无论是输入还是输出），并能从文本中提取出相关特征（例如关键词、主题或完整摘要）。

图 1.2 所示的是 ChatGPT 答复用户提示并补充了参考材料的示例。

图 1.2 ChatGPT 答复用户提示并补充了参考材料的示例

接下来，我们介绍生成式人工智能在图像生成领域的应用。

1.1.3 图像生成

就生成式人工智能在图像生成领域的应用来说，最早且最著名的示例之一是由 Ian Goodfellow 等人在 2014 年发表的文章“Generative Adversarial Networks”中介绍的生成对抗网络（Generative Adversarial Network，GAN）架构，这一架构能生成难以与真实图像区分的逼真图像。GAN 有一些有趣的应用，例如为训练计算机视觉模型生成合成数据集、生成逼真的产品图像，以及生成用于虚拟现实和增强现实应用的逼真图像。

图1.3 所示的虚构人脸图像均由人工智能（生成对抗网络）生成。

图 1.3 由 GAN StyleGAN2 生成的虚构人脸图像

2021 年，OpenAI 在图像生成领域引入了一个名为 DALL-E 的生成式人工智能模型。与 GAN 不同，DALL-E 模型旨在根据自然语言描述生成图像（GAN 则以随机噪声向量为输入），这些图像可能看起来没那么逼真，但足以表达所述内容。

DALL-E 可以生成独特而富有创造力的图像，在广告、产品设计、时尚等创意产业中具有巨大的应用潜力。

图 1.4 展示了 DALL-E 根据自然语言描述生成的 4 张图像。

图 1.4 DALL-E 使用自然语言提示作为输入所生成的图像

注意，文本生成可以与图像生成相结合，以产生全新的素材。近年来，将二者结合的新型人工智能工具得到了广泛的应用。

Tome AI 就是一个例子。这是一款基于人工智能的自动生成 PPT 的在线应用，除了基础功能，Tome AI 还能利用 DALL-E 和 GPT-3 等模型从零开始创建幻灯片，如图 1.5 所示。

图 1.5 一份关于生成式人工智能的演示文稿，完全由 Tome AI 使用自然语言输入生成

可以看到，TomeAI 完全能够根据用户以自然语言输入的简短信息创建一个演示文稿。

1.1.4 音乐生成

生成式人工智能在音乐生成领域的应用可以追溯到 20 世纪 50 年代，当时的学者们在算法合成领域开展了相关研究，并将算法用于生成音乐作品。事实上，1957 年，Lejaren Hiller 和 Leonard Isaacson 创作了弦乐四重奏—Illiac Suite，这是第一首完全由人工智能创作的音乐作品。自此，学者们一直在研究如何使用人工智能生成音乐。在最近几年的发展中，新的架构和框架已经得到广泛应用，例如，谷歌在 2016 年推出的 WaveNet 架构能够生成高质量的音频样本；谷歌开发的 Magenta 项目使用递归神经网络（Recurrent Neural Network ，RNN ）和其他机器学习技术来生成音乐及其他形式的艺术作品；OpenAI 于 2020 年推出的能生成音乐的神经网络系统Jukebox，可以根据音乐和声乐风格、类型和参考艺术家等信息自定义输出。

这些框架和其他框架为开发用于音乐生成的“人工智能作曲助手”奠定了基础。

由 Sony CSL 研究开发的 Flow Machines 就是一个示例，这个生成式人工智能系统经过大量音乐作品数据库训练后，可生成各种风格的新音乐。法国作曲家 Benoît Carré 用 Flow Machines 创作了一张名为“Hello World”的专辑（参见 Hello World 网站），这张专辑收录了 Flow Machines 与几位人类音乐家合作的乐曲。

图 1.6 所示的是一首完全由 Music Transformer（Magenta 项目中的一个模型）生成的曲目。

图 1.6 Music Transformer 生成的曲目

在音乐领域，生成式人工智能的另一卓越应用是语音合成。事实上，有许多人工智能工具可以用知名歌手的声音作为输入来生成音频。例如，你想听KanyeWest演唱某首歌曲的效果，便可以用诸如 FakeYou、DeepFakeTexttoSpeech、UberDuck等工具来实现这一梦想，如图1.7 所示。

图 1.7 使用 UberDuck 进行文本转语音合成

不得不说，合成效果的确令人震撼。你甚至可以选用各种卡通人物（例如小熊维尼等）的声音来合成歌曲。

接下来，我们介绍生成式人工智能在视频生成领域的应用。

1.1.5 视频生成

生成式人工智能几乎同时应用于视频生成和图像生成领域，其发展时间线相差便是 DeepMind 的 Motion to Video，它仅凭一张图像和一系列动作就能生成高质量的视频。另一个典型示例是 NVIDIA 的 Video-to-Video Synthesis（Vid2Vid），它基于深度学习框架，使用 GAN 技术根据输入视频生成高质量的视频。

Vid2Vid 可以生成时间上连贯的视频，这意味着视频能够随时间推移保持播放流畅且逼真。该系统可用于执行各种视频生成任务，如下所示。

● 变换视频风格，例如，将日间效果视频转换为夜间效果视频或将草图转换为逼真的图像。

● 修改现有视频，例如，更改视频中对象的样式或外观。

● 根据静态图像生成新视频，例如，将一系列静止图像动画化。

2022 年 9 月，Meta 的研究人员宣布推出 Make-A-Video，这是一种新的人工智能系统，可以帮助用户将自然语言提示转换为视频剪辑。这一技术背后包含我们刚提到的许多其他领域的模型—用于提示的语言理解模型、用于图像生成的图像和运动生成模型，以及由人工智能作曲助手制作的背景音乐。

综上所述，多年来，生成式人工智能已经给众多领域带来了“冲击”，出现了许多足以给艺术家、企业甚至普通用户的工作提供支持的人工智能工具。相信随着技术的发展，生成式人工智能会有更广阔的应用空间！接下来，在了解 OpenAI 模型的相关内容之前，我们先介绍生成式人工智能的研究历程和新进展。

本文摘自《拥抱AIGC 应用ChatGPT和OpenAI API》

用AIGC、ChatGPT、GPT及OpenAI模型实现生产力提升的一本书，阐释生成式人工智能模型背后的设计思想，帮你找到更适合自己的AI应用方式。

本书先概述生成式人工智能所涉及的技术和工具，帮助你了解如何训练模型以生成新数据；接着展示如何用 ChatGPT 提高营销、科研和软件开发等相关工作的生产力和创造力；随后介绍如何通过改进提示设计从与 ChatGPT 的交互中获得好的效果，以及如何在企业级场景中使用 OpenAI 模型。

通过阅读本书，你可以了解生成式人工智能的相关概念，以及如何通过有效的提示设计增加ChatGPT的价值，如何基于Python语言构建和部署生成式人工智能系统，如何利用 Azure OpenAI 服务实现企业级应用。

本书适合想用生成式人工智能提升工作效率的所有人阅读，包括但不限于商务人士、数据科学家、软件开发人员、营销人员和科研人员。

什么是生成式人工智能？

最新关注

热文推荐

2022年12月10日-2023年12月28日

SQL 算术运算符：加法、减法、乘法、除法和取模的用法

《社区人员管理》实战案例设计&个人案例分享

Python中time库的time.time()函数详解

AI 时代，提示词便是生产力

JS 保留小数方法

什么是生成式人工智能？

相关文章

最新关注

热文推荐