一、背景
本文系个人观点:错漏在所难免,仅供参考
北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。英伟达 AI 科学家 Jim Fan 表示,和 AlphaGo 下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
早在 2019 年夏天,Minecraft的开发公司就提出了「钻石挑战」,悬赏可以在游戏里找钻石的 AI 算法,直到 NeurIPS 2019 上,在提交的 660 多份参赛作品中,没有一个 AI 能胜任这项任务。
但 DreamerV3 的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但 AI 智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
参考:
DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石
DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:
1、world model:预测潜在动作的未来结果
2、critic:判断每种情况的 value
3、actor:学习如何使有价值的情况成为可能
从之前下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3,其技术发展脉络是怎样的?相互之间是什么联系呢?
二、通用AI的本质
从下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3,个人认为本质都是相同的,都遵循Yang lecun的通用世界AI模型。
其核心包括World model,Critic,Actor三部分。
DreamerV3向这个通用世界AI模型的映射很自然。因为它的核心就包括了world model,Critic,Actor三部分。
Alphazero是否也和这个通用世界AI模型一致,如果一致,那么它的模型怎么向这个通用世界AI模型映射呢?
三、Alphazero和通用AI的关系
如图所示。
Alphazero和通用世界AI模型的关系主要包括两点:
- 在Alphazero中,世界模型相当于围棋棋盘、棋子、行棋规则的表示。
- 在alphazero中Critic加入了蒙特卡洛树MCT的评分,使得Critic的评分向蒙特卡洛树MCT不断靠拢,加速了Critic网络的收敛。
四、未来通用AI的思考
通用AI核心包括World model,Critic,Actor三部分。其要点包括:
- World model需要考虑场景的高层抽象编码表示;高层抽象编码在训练过程中会和场景高度依赖,但它是通过训练自动生成的抽象编码,并不需要人工干预。结合Short-term memory可形成历史记录;
- critic需要结合特定场景融入特定经验(比如,对弈领域的MCT,XX领域的XXX),可加速Critic网络收敛时间。
整体来看框架是通用的,但其训练结果是面向特定领域的,依赖reward的奖励,训练好的模型其world model、critic网络都是由reward决定的。