1、背景
在国内外大多数AI厂商还在卷大语言模型之际,OpenAI悄无声息地发布了文生视频(text-to-video,简称t2v)模型Sora ,仅仅几个视频demo,就让整个AI圈子从惊讶到恐惧,惊讶于Sora生成的视频已经到达工业应用级别,恐惧于现有的t2v模型与Sora的差距竟然如此之大。
今天主要是用通俗易懂的语言分享下一些自己了解到和学习的关于AI方面的知识。
2、概念
2.1 机器学习
机器学习的核心思想是让计算机根据已有数据自主建立模型,以解决新问题,比如根据已有数据计算出某几个特征的组合是属于哪个分类。
2.2 深度学习
深度学习的基础是使用神经网络,神经网络是将模仿被称为神经元的脑神经的单位进行链接,形成的网络状的图。
可以简单理解为使用很多组方程去模拟情况,通过调整每个函数的系数,去模拟数据的分布。
2.3 大模型
大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。
大模型就是在深度学习的基础上将模型的参数变大,可以说是大体量的深度学习模型,“大” 体现在模型参数和训练语料。
2.4 agent
Agent理解成能自主理解、规划、执行复杂任务的系统。相当于人类的“数字助理”,它不仅告诉你“如何做”,更会“帮你做”。给他一个目标,他可以在没有人控制的情况下自主独立运行。
可以理解为大模型是大脑,agent 是你本地的代理,比如当你想打开本地的文件夹,大模型是没有这个能力的,但是可以想办法把这个功能赋值给大模型进行调用,这样的一个本地应用就是agent。
这里的agent有点类似钢铁侠的贾维斯,实现的手段就是function call(不理解没关系)
2.5 多模态
在昨天之前我还不是很理解多模态这个概念,在之前的工作中也接触过这个概念,一直没理解。
在学习和查资料之后发现很简单,在之前的训练模型是只能使用单一的语料,比如只是文字。
多模态大模型就是这个模型有输入和输出多种语料的能力,比如既能输入文字,又能输入图片,也可以输入视频,只要是非单一的大模型就叫多模态。
3、关于openAI,GPT 和 Sora
3.1 是什么
OpenAI 是开发GPT的公司。公司CEO叫奥特曼。
GPT 是 文字生成类的大模型
Sora 是文字生成视频的大模型
3.2 怎么使用
https://chat.openai.com/
最早需要虚拟号码和外网IP能访问,国内访问不了,需要科学上网。
现在据说已经可以轻松注册了,但是依然需要科学上网。
国内可以使用 文心一言 地址:https://yiyan.baidu.com/
4、国内大模型介绍
5、对游戏有哪些影响
5.1 文生图
文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。如果要在实际工作场景中应用,我更推荐 Stable Diffusion。
5.2 AI游戏
现在貌似对AI的使用基本上在AI画图上,真正使用AI的游戏还没有看到,现在是一片空白,不排除一些厂商正在研发。
借助function call 可以做出一些真正的AI游戏,怎么控制流程是一个需要深度思考的话题。
6、一些乱七八糟的事
李一舟卖课卖了5000w,号称中国AI第一人,不能说是江湖骗子,只能说是割韭菜第一人。
openAI CEO 奥特曼 是 同性恋。