终身适应

虽然NPC可以训练玩各种游戏,目前的机器学习技术仍然很难,当涉及到代理时,应该能够在他们的一生中适应,即在游戏正在进行时。例如,当发现玩家总是在FPS地图中的相同位置遭到伏击时,人类玩家可以快速改变其行为。然而,大多数当前的DL技术需要昂贵的再训练以适应这些情况以及他们在训练期间未遇到的其他不可预见的情况。由单个人的实时行为提供的数据量远不及通常的深度学习方法所需的数据量。这一挑战与更广泛的问题有关,即few-shot学习、transfer学习和general video game playing。