Sora来了，不懂AI 大模型能行吗？大模型和游戏的融合点在哪？

1、背景

在国内外大多数AI厂商还在卷大语言模型之际，OpenAI悄无声息地发布了文生视频（text-to-video，简称t2v）模型Sora ，仅仅几个视频demo，就让整个AI圈子从惊讶到恐惧，惊讶于Sora生成的视频已经到达工业应用级别，恐惧于现有的t2v模型与Sora的差距竟然如此之大。

今天主要是用通俗易懂的语言分享下一些自己了解到和学习的关于AI方面的知识。

2、概念

2.1 机器学习

机器学习的核心思想是让计算机根据已有数据自主建立模型，以解决新问题，比如根据已有数据计算出某几个特征的组合是属于哪个分类。

2.2 深度学习

深度学习的基础是使用神经网络，神经网络是将模仿被称为神经元的脑神经的单位进行链接，形成的网络状的图。

可以简单理解为使用很多组方程去模拟情况，通过调整每个函数的系数，去模拟数据的分布。

2.3 大模型

大模型又可以称为Foundation Model（基石）模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。其实感觉就是自监督学习，利用大量无标签很便宜的数据去做预训练。

大模型就是在深度学习的基础上将模型的参数变大，可以说是大体量的深度学习模型，“大” 体现在模型参数和训练语料。

2.4 agent

Agent理解成能自主理解、规划、执行复杂任务的系统。相当于人类的“数字助理”，它不仅告诉你“如何做”，更会“帮你做”。给他一个目标，他可以在没有人控制的情况下自主独立运行。

可以理解为大模型是大脑，agent 是你本地的代理，比如当你想打开本地的文件夹，大模型是没有这个能力的，但是可以想办法把这个功能赋值给大模型进行调用，这样的一个本地应用就是agent。

这里的agent有点类似钢铁侠的贾维斯，实现的手段就是function call（不理解没关系）

2.5 多模态

在昨天之前我还不是很理解多模态这个概念，在之前的工作中也接触过这个概念，一直没理解。

在学习和查资料之后发现很简单，在之前的训练模型是只能使用单一的语料，比如只是文字。

多模态大模型就是这个模型有输入和输出多种语料的能力，比如既能输入文字，又能输入图片，也可以输入视频，只要是非单一的大模型就叫多模态。

3、关于openAI，GPT 和 Sora

3.1 是什么

OpenAI 是开发GPT的公司。公司CEO叫奥特曼。

GPT 是文字生成类的大模型

Sora 是文字生成视频的大模型

3.2 怎么使用

https://chat.openai.com/

最早需要虚拟号码和外网IP能访问，国内访问不了，需要科学上网。

现在据说已经可以轻松注册了，但是依然需要科学上网。

国内可以使用文心一言地址：https://yiyan.baidu.com/

4、国内大模型介绍

5、对游戏有哪些影响

5.1 文生图

文生图的主流 AI 绘画平台主要有三种：Midjourney、Stable Diffusion、DALL·E。如果要在实际工作场景中应用，我更推荐 Stable Diffusion。

5.2 AI游戏

现在貌似对AI的使用基本上在AI画图上，真正使用AI的游戏还没有看到，现在是一片空白，不排除一些厂商正在研发。

借助function call 可以做出一些真正的AI游戏，怎么控制流程是一个需要深度思考的话题。

6、一些乱七八糟的事

李一舟卖课卖了5000w，号称中国AI第一人，不能说是江湖骗子，只能说是割韭菜第一人。

openAI CEO 奥特曼是同性恋。

文章版权归作者所有，未经允许请勿转载。

THE END

文章

Sora来了，不懂AI 大模型能行吗？ 大模型和游戏的融合点在哪？