显著提升特点

GPT-4 更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。
GPT-4可以接受图像作为输入，并生成字幕、分类和分析。
GPT-4能够处理超过25000个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

介绍

GPT-4，是OpenAI在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。例如，它通过了模拟律师考试，分数约为考生的前 10%;相比之下，GPT-3.5 的得分约为倒数 10%。

能力对比

GPT-4，这是OpenAI在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。例如，它通过了模拟律师考试，分数约为考生的前 10%;相比之下，GPT-3.5 的得分约为倒数 10%。我们花了 6 个月的时间迭代调整GPT-4 利用我们的对抗性测试程序和 ChatGPT 的经验教训，在真实性、可操纵性和拒绝超出护栏方面取得了我们有史以来最好的结果（尽管远非完美）。

考试能力：知识水平

我们正在通过 ChatGPT 和 API（使用候补名单).为了准备图像输入功能以实现更广泛的可用性，我们正在与单一合作伙伴开始。我们也是开源的OpenAI Evals，我们用于自动评估 AI 模型性能的框架，允许任何人报告我们模型中的缺点，以帮助指导进一步改进。

语言能力

许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力，我们使用 Azure 翻译将 MMLU 基准（一套涵盖 14 个主题的 000，57 个多项选择题）翻译成多种语言（请参阅附录).在测试的 24 种语言中的 26 种中，GPT-4 的性能优于 GPT-3.5 和其他 LLM（龙猫、PaLM）的英语性能，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言：

视觉能力

GPT-4 可以接受文本和图像的提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。具体来说，它生成文本输出（自然语言、代码等），给定由穿插文本和图像组成的输入。在一系列域（包括包含文本和照片的文档、图表或屏幕截图）上，GPT-4 表现出与纯文本输入类似的功能。此外，它可以通过为纯文本语言模型开发的测试时技术进行增强，包括少数镜头和思维链促使。图像输入仍然是研究预览，不公开可用。例如：使用一个搞笑的图片，它就可以识别：