多智能体

当前的深度强化学习方法主要关注于训练单个代理。在多个代理必须合作的情况下,存在一些例外,但它仍然是一个开放的挑战,它们如何在不同情况下扩展到更多的代理。在许多当前的视频游戏中,例如StarCraft或者GTA V,许多代理与彼此和玩家互动。 要将视频游戏中的多代理学习扩展到与当前单个代理程序相同的性能水平,可能需要能够同时有效地跟踪多个代理的新方法。