DQN

Playing atari with deep reinforcement learning

我们提出了第一个深度学习模型,使用强化学习直接从高维感觉输入成功学习控制策略。 该模型是卷积神经网络,使用Q学习的变体进行训练,其输入是原始像素,其输出是估计未来奖励的值函数。 我们将方法应用于Arcade学习环境中的七个Atari 2600游戏,不需要调整架构或学习算法。 我们发现它在六个游戏中优于以前的所有方法,并且在三个游戏中超过了人类专家。

方法

最优贝尔曼方程

在DQN中使用一个卷积神经网络拟合上面的Q函数,损失函数如下

探索利用

经验回放

目标网络

为了提高训练的稳定性,算法中有两个网络,其一是最新的行为网络,其二是目标网络。目标网络每C步和当前最新的网络同步一次。

伪代码

Last updated