Ape-X DQfD
Last updated
Last updated
Observe and Look Further: Achieving Consistent Performance on Atari
尽管深度强化学习(RL)领域取得了重大进展,但今天的算法仍然无法在Atari 2600游戏等一系列多项任务中持续学习人类级别的策略。我们确定了任何算法都需要掌握的三个关键挑战,才能在所有游戏中表现出色:处理各种奖励分配、长期推理和高效探索。在这篇文章中,我们提出了一个算法来解决每一个挑战,并且能够学习几乎所有雅达利游戏中的人类层面的策略。一个新的transformed Bellman算子允许我们的算法处理不同密度和尺度的奖励; 辅助时间一致性损失使我们能够使用 = 0.999(而不是 = 0.99)的贴现因子稳定地训练,将有效规划的范围扩大一个数量级;我们通过使用人类演示来引导代理人奖励状态,从而缓解探索问题。
在深度强化学习中,如果 的方差太大,容易使训练不稳定而无法收敛,一种方法是截断回报的分布于区间 。不过,我们建议将重点放在行动价值函数上,而不是减少奖励的幅度,我们使用一个函数: 来缩小动作值函数的范围。
新的损失函数可写为:
在本节中,我们将描述如何将变换后的Bellman算子和TC损失与DQfD算法和分布式优先级经验重放相结合。整体的架构和Ape-X类似,不过引入了额外的损失函数。
用于模仿演示学习的监督损失为(DQfD):
总的损失函数为:
上述定理说明了新的Q函数的收敛性,我们的算法中使用 。
虽然变换后的贝尔曼算子提供了目标尺度和方差的缩减,但是当折扣因子γ接近1时,不稳定性仍然会发生。增加折扣系数会减少非奖励状态之间的时间价值差异。特别地,神经网络 到下一个状态 的不希望的泛化(由于时间上相邻的目标值的相似性)可能导致灾难性的TD backup。我们通过添加表单的辅助时间一致性(TC)损失来解决问题:
TC损失惩罚改变下一个动作值估计 的权重更新。。这确保了更新后的估计值符合操作要求,从而随着时间的推移保持一致。