有人说,过去的一年是AGI元年,其实这一次人工智能产业革命早就开始了,过去的一年可以说是生成式AI能力全面开始爆发的一年。

自 1956 年提出人工智能(AI)以来,AI 产业与技术不断发展, AI 大模型成为一训多能的人工智能算法基础设施,2019年以来,大模型泛化求解能力大幅提升,成为产业主流技术路线。AI 大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型” 两层含义。“大模型+小模型”逐步成为产业主流技术路线,驱动全球 AI产业的全面加速。

但对于AIGC 领域而言,这仅仅是一个开始更大的变革尚待开启。在过去的深度学习黄金十年,人工智能的感知、理解能力不断增强,为 AIGC的爆发奠定基础。如今,随着生成算法、大模型、多模态技术等AI 技术的持续创新和发展成熟,Al领域正在经历从感知、理解到生成、创造的跃迁。以 AIGC 这一新的疆域为标志 AI 领域正在迎来下一个时代。融合大模型和多模态技术的 AIGC 模型,有望成为新的技术平台深度赋能各行各业

生成式 AI 应用进入大爆发时代

大模型、算力与生态的联动 生成式 AI 在文本、图像、代码、音频、视频和 3D模型等领域展现出了强大的能力。当前生成式 AI 的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式 AI 产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段: 1)专家系统:上世纪 50 年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966 MIT 发布的世界上第一台聊天机器人 Eliza 可以看作生成式 AI 最早期的产品之一。Eliza 能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限; 2)机器学习与神经网络:1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20 世纪 90 年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI 技术的突破,AI 可以开始基于神经网络创建逼真和有创意的内容; 3)深度学习:2012 年后,深度学习在人工智能领域中的应用将生成式 AI 带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和 GPU 加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式 AI 依然建立在深度学习的基石之上; 4)大模型:2017 年,Google 发布著名论文《Attention is All You Need》,提出了基于一种新的神经网络——Attention 注意力机制所构建的模型 Transformer2018 OpenAI 和谷歌分别推出了 GPT 模型以及 BERT 模型,均是在 Transformer 的基础上构建,Transformer 及 GPT模型标志着生成式 AI 在文本领域的重大飞跃。与此同时,伴随着 VAEs、扩散模型、神经辐射场、CLIP 等一系列生成算法和多模态模型的不断成熟,生成式 AI 的时代正式开启。

GPT 模型快速进化的背后,一方面是对训练方法的持续迭代,从 GPT-1 的半监 督式学习,到 GPT-2 舍弃了微调阶段,再到 GPT-3 In-context 学习和海量参数,以及引入了基于人工反馈的强化学习之后的 ChatGPT ;另一方面,在模型参数规模扩大背后,是 OpenAI对研发和算力的持续高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨 胀。GPT-4 相较于之前版本的 GPT 模型,在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,在许多能力上已经超越了人类基准。同时大模型作为能够在海量、广泛、非结构化数据集(例如文本和图像)上进行训练的大规模深度学习模型,它的强大之处不仅在于文本生成,大模型可以适应各类不同的任务,不仅可以用于聊天机器人,同时也可以用来创建新的蛋白质序列,并且当前已经成为了图像、代码、音频、音乐、视频和 3D 模型等各种模态应用的底层框架。 目前大模型的应用已经不局限于 NLP 领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了 AIGC 的质变的关键。一方 面,目前大模型可以广泛适用于各类下游任务,当前已经成为了 AIGC 的底层框架。许多跨领域 的AI 应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion Model)、 神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、 视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。 1)文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的 输出、更长形式的内容和更好的垂直特性; 2)图像生成:过去一年技术进化速度最快的领域,2014 年出现生成对抗网络 GAN 是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP 模型等技术的成熟,文生图的能力大幅增强,包括 DALL-E2Stable Diffusion 等主流文生图应用均是基于扩散模型所构建; 3)视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法; 43D 模型生成:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF2020 年于 ECCV 会议上提出,目前已经成为 3D 模型构建的主流算法,并广泛应用于游戏、 数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间; 5)代码生成:GPT-4 等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码; 6)音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果 7)其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。

生成式AI在2021年、2022年和2023年将继续发力,持续取得进展。

生产式AI迅速在应用端形成强大的产业地图。形成了多条明显的赛道。

A.工具型应用:包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具等,应用领域主要集中在C 端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C端应用正进入第一轮洗牌阶段; B.通用软件:主要包括办公软件、企业服务、IT 运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,已进入商业化落地的关键阶段; C.行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B 场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键; D.智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉、多模态感知等底层技术的进一步突破。 生成式 AI 大模型底层能力:1 – 感知: 对文字内容的感知、对人类输入的需求理解能力,未来进化方向是从文字内容的感知到图像视觉的感知; 2 – 分析: 对信息和知识的检索、归纳与整合能力,未来进化方向是推理和决策。 3 – 生成: 文本生成能力较为成熟,未来进化方向为图片、视频、 3D 等多模态生成能力的进一步提升。

当下生成式AI总结如下:

1.技术的突破:生成式AI利用深度学习和神经网络等技术手段,实现了对自然语言的生成和理解能力的显著提升。这些技术的突破使得生成式AI能够生成具有逻辑和连贯性的文本,并能够理解和回应人类的语义。

2.应用领域的拓展:生成式AI已经广泛应用于多个领域,包括自然语言处理、机器翻译、对话系统、写作助手、虚拟主持人等。它不仅可以生成新闻、文章、故事等文本内容,还可以进行对话、提供答案和建议等。生成式AI的拓展应用使得其在人机交互、知识传递和创意生成等方面发挥了重要作用。

3.社交媒体的影响:生成式AI的大爆发也与社交媒体的快速发展密不可分。社交媒体平台如微博、微信、Twitter等提供了大量的文本数据,这为生成式AI提供了训练和优化的数据基础。同时,生成式AI也能够为社交媒体用户提供更好的表达和交流工具,丰富了社交媒体的内容和功能。

4.伦理和隐私问题的关注:生成式AI的大爆发也引发了一系列伦理和隐私问题的关注。大规模生成文本的能力使得虚假信息和网络谣言的传播更加便利,同时也增加了内容的复制和抄袭的可能性。此外,生成式AI在用户隐私和信息安全方面也存在潜在的风险,需要加强监管和保护措施。

行业应用领域回望

一、工具型应用领域

1 )聊天机器人: ChatGPT 目前仍是流量最大的 AI 聊天机器人,依托于底层模型的强大能力,市场地位仍非常稳固。另一类是主打陪伴,能够创建虚拟角色的聊天机器人,代表有Character AI 以及 Infectetion AI 的聊天机器人 PI ,这类机器人更注重人格属性,与 ChatGPT 形成差异化竞争,用户可以完全自己创作角色来满足社交、情感、陪伴等需求,目前这类应用的流量还在稳步增长。这一领域的头部厂商大多在开发自己的大模型,其中 Inflection AI 表示计划打造一个包含大约 2.2 万块英伟达 H100 芯片的计算集群,总计算量估计是用于训练 GPT4 全部计算量的 3 倍。未来聊天机器人更具前景的应用是集成于文档、网页、知识库等具体的应用环境中,以 AI 助手 的方式与用户进行交互,包括回答问题、提供建议、执行任务等,这也是这类产品未来演进的主要方向。 2 )搜索引擎: 生成式 AI 与搜索引擎的结合具体体现在,传统搜索引擎主要基于关键词匹配, 而基于大模型的搜索的核心在于意图理解和内容生成,具备了整合、提炼、串联信息的能力,能更好地应对开放式问题。今年 2 月微软将生成式 AI 整合到了自家搜索引擎中,并命名为“New Bing ”。在接入了之后 GPT Bing 访问量虽然有一定程度的增长,但目前来看还远未能撬动谷歌在搜索引擎市场的绝对领先地位,同时谷歌也推出了 Google Bard 来应对 New Bing 的冲击,除了微软和谷歌等巨头之外,目前硅谷还有不少 AI 初创企业投入到了搜索引擎这一赛道。3)写作工具:文本写作类 AI 工具大多是基于 GPT 模型,在模型进行一些定制性的优化, 或者通过预先设置 Prompt,来满足一些文案生成的需求,整体上看对 GPT 等底层大模型有较大的依赖,竞争力在于场景化定制的模板和功能。目前头部的应用有 Notion AIJasper AICopy AI 等,其中 Notion AI 侧重通用写作,主打全面的文本生成和内容编辑功能,而 Jasper AICopy AI 更侧重于营销工具,内置了广告文案、邮件、博客文章、推文等数十种模板和文案功能。目前来看这一领域的产品同质化程度较高,在 GPT-4 的冲击下,头部的写作类应用包括 Jasper AI近三个月流量开始快速下滑。 4AI 作画:主流三大文生图工具为 DALL-E3Stable DiffusionMidjourney,其中 DALL-E3MidJourney 是闭源模型,可以实现在线访问,使用门槛低,用户输入一定提示词后即能实现 文生图。Stable Diffusion 主要走开源路线,可以在用户本地部署与运行。目前开源和闭源工具在商业模式上也存在较大差异,MidJourney 能够通过向用户直接提供订阅服务来收费,而 Stable Diffusion 的基础模型免费,主要通过为企业提供定制模型来实现商业化。 5)编程工具:GPT-4 自身的在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改 bug 等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括 GithubHuggingFaceReplit 等开发者社区今年以来的项目和流量大幅增长,今年 3 Github 发布了接入 GPT-4 的新版本编程辅助工具 Github Copilot X,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的 AI 辅助编程工具。 二、通用应用软件领域1 办公软件: 主流的 AI+ 办公应用包括微软 365 Copilot 和谷歌 Duet AI ,目前全面嵌入Microsoft Office 及 Google workspace 办公套件,在这一领域的竞争对手主要包括聚焦在文字、 表格、演示文稿(PPT )、邮件、笔记等单个应用领域的 AI 生产力工具,头部应用有文本类的 Notion AI、 jasper AI Copy AI ,表格类的 SheetAI 、演示文稿类的 Tome SlidesAl 等。目前微软作为办公软件巨头,凭借 Office 套件的用户基数和网络效应,在这一赛道占据明显优势。 7 月 Microsoft 365 Copilot 定价公布,未来 AI+ 办公具备非常清晰的商业化前景。2)创意软件:与办公软件格局类似,目前主流 AI+创意软件包括 Adobe FireflyCanva AI 等套件类产品以及单点工具产品。今年以来 Adobe 发展强劲,得益于 AI 的驱动以及业绩的行业深度分析超预期Adobe Firefly 的优势在于与 Adobe 现在有的产品能够实现很好的结合,为用户提供了大量的选项、素材、模板、工具包,进一步降低了用户画图、修图的门槛,而不像 Midjourney 更依赖提示词。同时,Adobe对于训练数据的要求非常严格,对于必须确保输出图像版权的用户Adobe Firefly 具备很大优势。但由于训练素材来源受限,这也会导致在生成的性能上弱于拥有一些主流文生图工具公司。目前 Adobe 已经明确提出将启动 Adobe Firefly 的商业化。 3 )企业服务: 目前生成式 AI 已经与企业服务领域的主要产品 CRM ERP 、财务、 HR 、OA 实现了不同程度的结合,短期来看营销、客服领域( CRM )的产品成熟度最高,龙头厂商Salesforce 已经初步实现商业化。同时目前 ERP 、财务、 HR OA 已经相对应的 AI+ 产品推出,主要侧重于利用 AI 进行数据挖掘来实现业务洞察和流程优化,相关产品功能还尚待完善,且还未进入商业化阶段。从参与厂商来看,这一领域的主要参与者仍是各个赛道上的主流玩家,包括 CRM 领域的 Salesforce ERP 领域的 Sap Oracle HRM 领域的 Workday 。同时微软 发布了 CRM ERP 领域的生成式 AI 产品 Dynamics 365 Copilot ,是 AI+ 企业服务领域的有力竞 争者。 4IT 运维:而大模型/生成式 AI 能够进一步提升 IT 运维的自动化和智能化水平,体现在其具备更强大的数据分析能力,以及更高效的人机交互模式,目前这一领域的龙头厂 Servicenow 已经推出生成式 AI+IT 运维的相关产品,并发布了未来生成式 AI 的产品路线图。同时,针对监控 OpenAI 等大模型 API 的使用情况及 Token 的消耗的需求,Datadog 已经推出了监控各种 OpenAI 模型API 使用模式、成本和性能的产品,帮助用户对于了解内部大模型的使用情况以及控制成本。 5 )软件开发 : 虽然生成式 AI 本身具备很强的代码生成能力,代表包括 GPT-4 以及 Github 发布的编程辅助工具 Github Copilot X ,但是由于生成式 AI 自身存在的幻觉等问题,仍然难以大规模应用于大型软件开发工作流程中。目前行业主流低代码平台中提供了企业级开发工具,具有内置的安全性、性能叉兼容性等方面的机制,可防止开发人员在使用 AI 编程时生成存在安全漏洞或不可靠或未知依赖项的代码。目前头部的低代码厂商包括微软、Salesforce ServiceNow等企业服务巨头和 OutSystems Mendix 等第三方厂商均正在布局这一赛道。 6网络安全:生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升。微软发布了首个基于大模型的 AI+安全大脑形态 security copilot,此后 Palo Alto Networks, Crowdstrike,Fortinet 等头部安全厂商均发布了 AI+“安全大脑”产品,其中包括 Palo Alto Networks 的 XSIAMCrowdstrike Charlotte AIAI+“安全大脑”所带来的的安全运营能力提升主要体现在两个方面,一是威胁检测,即发现问题的能力,二是响应处置,即解决问题的效率。在 AI 驱动下,今年头部安全厂商 Palo Alto NetworksCrowdstrikeFortinet 的股价均有强劲表现。7 )数据智能: 数据智能的头部厂商为全球大数据龙头厂商 Palantir ,今年推出了生成式 AI 平台 AIP ,可用于军事和商业领域。目前 AIP 在军事和国防领域已经开始实际应用,军队可以利 AIP 平台,不仅显示和分析战场的情报,增强对全面作战态势的感知,并参考 AIP 提出的作 战计划来辅助决策,拥有改变军事规划和决策的能力。此外,全球主流的综合IT 服务商和 IT 咨询公司均推出了生成式 AI 相关的产品及解决方案,未来在底层模型和算法普惠的趋势下,这一领域比拼的将是客户资源以及对垂直行业的深度理解。 三、行业应用领域 目前生成式AI在游戏、法律、教育、电商等 C 端场景有较多的结合,而在医疗、金融、工业等 B 端场景下生成式AI产品的成熟度仍然偏低。 在行业类应用场景中是 AI 助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据挖掘和知识洞察(Insight)类工具。同时,相较于通用大模型,垂直行业大模型在金融、医疗等领域有着更加深度的应用,一是由于安全及隐私保护等要求,行业数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是垂直行业的数据量级大,涉及系统又比较复杂,通用大模型在解决专业问题的能力上不如垂类大模型。包括彭博社推出的金融大模型 Bloomberg,以及 Meta 公司推出的蛋白质大模型 ESMFold 均证明了垂类大模型的专业性能要超过通用大模型,目前各行业头部厂商也在开始自建垂类大模型。 1 )金融:生成式 AI 技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖 掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。 其中,证券侧重于智能投研,功能包括研报生成、财务数据查询、盈利预测、投资组合建议等代表性产品有金融数据分析工具 FinChat 等;银行则侧重智能风控,通过对客户的信用历史、行为特征等数据进行分析,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警,目前主要有开源模型 FinGPT 同时,今年彭博社推出了专为金融行业从头打造的 500 亿参数大语言模型 BloombergGPT ,训 练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了 7000 多亿个标签的大 型训练语料库。 BloombergGPT 在金融领域的任务普遍拥有着超过通用大模型的表现。2)医疗:化合物合成、靶点发现等医药研发是此次生成式 AI 变革突破的新场景。 其中,医药研发目前主要通过 AI 大模型生成新型小分子、核酸序列和蛋白质,以及识别靶点、药物筛选等,代表性产品包括 AbSciIntegrated Drug CreationCentaurAI 等;医院诊疗主要用于病历生成、诊疗建议、分析诊疗记录等,以提高诊疗效率。目前,主要有 MyChartSlicerDicerDAX Express 等产品。此外,医疗器械,如 CTMRI 等与图像相关的一体化器械,在生成式 AI 的赋能下将进一步增强医学图像等非结构数据的处理能力。 3 )教育: 生成式 AI 目前主要应用于面向 C 端的语言学习和学习工具场景,目前率先实现 商业化。 其中,语言学习龙头厂商 Duolingo 基于 GPT-4 推出的 Max 版本新增了 Explain My Answer 和 Roleplay 两项功能,订阅价格翻了 4 倍,同时带动了 Duolingo 股价的上涨 ;学习工具 Khanmigo 定价因为生成式AI,订阅定价持续上涨 。此外,在线教育场景旨在改善其现有功能,仍处于探索阶段。 4)工业:当前大模型的应用主要聚焦在研发设计中的创成式设计、草图生成等辅助类设计 的应用 生产制造环节由于生产环境的安全性与稳定性要求较高,生成式 AI 技术应用还未完全成熟。目前,工业大模型参与者主要包括工业软件厂商、互联网科技厂商、平台厂商等,但由于工业场景的复杂度,很多数据不可读取, 因此工业软件厂商、平台厂商通常与具备大模型能力的互联网科技厂商进行合作。 5 )游戏: 游戏创作效率的提高是生成式AI 赋能游戏行业最显著的特点。 一方面,生成式AI 技术能够从现有视频中直接捕获动画,无需通过演员穿戴动作捕捉服进行记录,节省人力成本。目前,Kinetix DeepMotion Move Ai 等公司正在探索这一领域;另一方面,生成式 AI 能够帮助游戏开发者大幅减少游戏设计时间和成本。代表性产品有 Unity 的创建游戏 AI 工具 Unity Muse和推理引擎工具 Unity Sentis Roblox 的游戏创建工具 Code Assist Material Generator 。 此外,初创公司正在探索利用生成式 AI 技术创建游戏中的 NPC 角色,来增加游戏的自由度和体验。6)法律:诉讼文书的制作和“示意证据”的生成是目前 AI+法律应用最广泛的领域。 其中,诉讼文书的制作是 AI 最早的应用领域,能够有效提高法律文书的审查与制作效率与准确性;“示意证据”能够以生成文本、图片、视频、音频、模型的方式展示证据,辅助司法人员直观地观察和理解证据。 四、智能硬件应用领域个人助手方面,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式 AI 技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低; 数字代理 AI Agent方面,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。AI agent 能够感知环境、进行决策和执行动作的智能实体,接收输入数据(例如传感器信息、文本、图像等),通过分析和处理这些数据,理解环境和任务要求,并做出相应的决策和行动。目前 AI Agent 在感知与决策能力上仍存在瓶颈,未来突破的关键在计算机视觉与多模态感知等底层技术的突破。 细分行业如:汽车、机器人、智能终端等。

以上是对生成式AI过往发展的梳理总结,算是向不是元年的AGI发展元年致敬