DRQN

Deep Recurrent Q-Learning for Partially Observable MDPs

深度强化学习为复杂任务提供了熟练的控制器。然而，这些控制器的内存有限，依赖于能够在每个决策点感知完整的游戏屏幕。为了解决这些缺点，本文研究了在深度Q-Network (DQN)中使用循环LSTM替换卷积后的第一个全连接层，从而增加递归性的效果。得到的深度递归Q-Network (DRQN)虽然在每个时间步上只能看到一个帧，但它成功地通过时间整合了信息，并复制了DQN在标准雅达利(Atari)游戏和部分观察到的具有闪烁游戏屏幕的等价物上的表现。此外，当使用部分观察进行训练并使用更完整的增量观察进行评估时，DRQN的性能作为可观察性的函数进行衡量。相反，当使用完整的观察进行训练并使用部分观察进行评估时，DRQN的性能下降小于DQN。因此,鉴于历史的长度相同,出现重复是一个可行的选择在DQN叠加帧的历史出现重复的输入层,并没有系统的优势学习玩游戏时,周期性网络可以更好的适应在评估时如果观测的质量变化。

方法

PreviousDQN NextGorila

Last updated 6 years ago

hashtag方法

方法