研究平台

这一部分描述了流行的游戏类型和研究平台；一些例子如图所示。对于每种类型，我们简要概述了该类型的特点，并描述了玩游戏的算法所面临的挑战。本文讨论的视频游戏在很大程度上取代了早期的简单控制问题，这些问题长期以来一直是主要的强化学习基准，但对于现代方法来说通常过于简单。在这种经典的控制问题中，输入是一个简单的特征向量，描述位置、速度和轨迹等。这类问题的流行平台有rllab，其中包括经典问题，如极点平衡和山地汽车问题，以及MuJoCo (多关节动态接触)，一个用于复杂控制任务的物理引擎，如仿人行走任务。