研究平台

这一部分描述了流行的游戏类型和研究平台;一些例子如图所示。对于每种类型,我们简要概述了该类型的特点,并描述了玩游戏的算法所面临的挑战。本文讨论的视频游戏在很大程度上取代了早期的简单控制问题,这些问题长期以来一直是主要的强化学习基准,但对于现代方法来说通常过于简单。在这种经典的控制问题中,输入是一个简单的特征向量,描述位置、速度和轨迹等。这类问题的流行平台有rllab,其中包括经典问题,如极点平衡和山地汽车问题,以及MuJoCo (多关节动态接触),一个用于复杂控制任务的物理引擎,如仿人行走任务。