可调节的性能等级

目前几乎所有关于DL玩游戏的研究都旨在创造能够尽可能地玩游戏的代理,甚至可能“殴打”它。然而,出于游戏测试,创建教程和演示游戏的目的,在具有类似人类游戏玩法的重要场所中,能够创建具有特定技能水平的创建者可能很重要。如果你的代理比任何人类玩家都更好,那么它就不是人类在游戏中所做的好模型。最基本的是,这可能需要训练一个玩得非常好的代理,然后找到一种降低代理性能的方法。然而,更有用的是能够以更细粒度的方式调整性能水平,以便例如单独控制反应速度或代理的长期规划能力。更有用的是能够禁止受过训练的代理人的某些游戏方式能力,以便测试例如某个特定级别是否可以在没有某些行动或策略的情况下解决。

实现这一目标的一条途径是procedural personas的概念,其中代理的偏好被编码为效用权重的一组。然而,这一概念还没有用深度学习来实现,在这种背景下如何实现规划深度控制还不清楚。