强化学习模型的效果与模型大小的关系——强化学习模型的缩放规律

原文摘要：最近观察到的神经幂律扩展关系在深度学习领域产生了重大影响。因此，大量的注意力都放在了对缩放规律的描述上，尽管大部分都是针对监督学习的，而对强化学习框架的关注程度较低。在本文中，我们提出了一个关于基石强化学习算法AlphaZero的性能扩展的广泛研究。在Elo等级、游戏实力和幂律扩展之间的关系基础上，我们在 "四连胜 "和 "五连胜 "游戏中训练AlphaZero代理并分析其性能。我们发现，当不受可用计算的瓶颈限制时，玩家的实力以神经网络参数计数的幂律进行扩展，而当训练最佳规模的代理时，则以计算的幂律进行扩展。我们观察到两种游戏的缩放指数几乎相同。结合这两个观察到的缩放规律，我们得到了一个与语言模型观察到的类似的最佳规模与计算量相关的幂律。我们发现，预测的最佳神经网络规模的扩展符合我们在两个游戏中的数据。这个缩放规律意味着，考虑到各自的计算预算，以前发表的最先进的游戏模型明显小于其最佳规模。我们还表明，大型AlphaZero模型的样本效率更高，在相同数量的训练数据下，比小型模型表现更好。

强化学习模型的效果与模型大小的关系——强化学习模型的缩放规律

论文名：Scaling Laws for a Multi-Agent Reinforcement Learning Model

发布时间：2022年9月

论文地址：https://arxiv.org/abs/2210.00849

代码地址：