# 研究平台

这一部分描述了流行的游戏类型和研究平台；一些例子如图所示。对于每种类型，我们简要概述了该类型的特点，并描述了玩游戏的算法所面临的挑战。本文讨论的视频游戏在很大程度上取代了早期的简单控制问题，这些问题长期以来一直是主要的强化学习基准，但对于现代方法来说通常过于简单。在这种经典的控制问题中，输入是一个简单的特征向量，描述位置、速度和轨迹等。这类问题的流行平台有rllab，其中包括经典问题，如极点平衡和山地汽车问题，以及MuJoCo (多关节动态接触)，一个用于复杂控制任务的物理引擎，如仿人行走任务。

![](https://2281160879-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LaNHyhKoX7GdL4Ytevq%2F-LaNII8X8nnM6zkOZPLK%2F-LaNIJPPcV64fDVHlMpz%2Fimage%20\(41\).png?generation=1553038396926102\&alt=media)
