DeepMind又在攻击雅达利游戏了!
这次他们最新的agent MEME,效果一样,比两年前的Agent57快200倍!
DeepMind在2020年开发的代理Agent57有史以来第一次在全部57款雅达利游戏中超越了人类基准性能。
但它有一个致命的缺陷:效率低:需要近800亿帧的数据训练才能实现。
现在,模因的出现完美地解决了这个问题。
有网友看后表示:这才是真正的样本效率。
话不多说,我们来快速看一下。
新代理:MEME
Agent57作为Atari所有游戏中第一个超越人类基准性能的代理,性能足够先进。
但问题是,为了实现这个目标,背后需要780亿帧的庞大经验训练,无论从时间还是成本上来说,都是一笔不小的开支。
因此,以Agent57为出发点,DeepMind采取了一系列不同的策略来提高训练效率。
他们调查了还原数据系统中遇到的一系列不稳定因素和瓶颈,提出了有效的解决方案,最终建立了一个更强大,更高效的代理:MEME。
新的MEME agent主要在Agent57的四个方面进行了改进,即:
A.实现稀有事件相关学习信号的快速传播,
B.不同价值尺度下的稳定学习,
C.改进神经网络的结构,
D.使更新在快速变化的策略下更加健壮。
为了实现这四个目标,DeepMind采取了以下方法,分别对应以上四点。
A1。在线网络指导,
A2。带公差的目标计算,
B1。损失和优先级标准化,
B2。交叉混合训练,
C1。不规范的干线网络,
C2。综合损耗的共享干线,
D.由策略提炼的健壮行为。
这些方法旨在提高Agent57的数据效率,但这种效率的提高不能以牺牲终端性能为代价。
因此,为了测试上述步骤后agent MEME的效率和性能,研究团队分别在2亿帧,10亿帧,200亿帧和900亿帧环境下进行训练。
从下图中可以直观的看出,新agent MEME以3.9亿帧超越了人类基准,比Agent57快了两个数量级,在参数数量从90B减少到1B的情况下取得了类似的最终性能。
可以说,与Agent57相比,MEME不仅提高了效率,而且保持了性能。
研究团队
MEME的研究团队来自DeepMind。
值得一提的是Steven Kapturowski是这两篇论文中的一篇。
毕业于美国科罗拉多大学博尔德分校,曾就职于苹果,微软,Glassdoor等公司,现为DeepMind高级研究工程师。
涉及