deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 双Q学习
  • 由于估计误差导致的过度乐观
  • Double DQN

Was this helpful?

  1. 方法
  2. 街机游戏

Double DQN

PreviousGorilaNextPrioritized Experience Replay

Last updated 5 years ago

Was this helpful?

众所周知,流行的Q-learning算法会过估计某些条件下的动作值。在实践中,这种过高估计是否普遍存在,是否会损害性能,是否能够从根本上加以预防,这些都是人们以前所不知道的。在这篇论文中,我们肯定地回答了所有这些问题。特别地,我们首先展示了现有的DQN算法,它将Q-learning与adeep神经网络相结合,在雅达利2600领域的一些游戏中存在严重的过估计。然后,我们展示了双Q学习算法背后的思想,它是在表格中介绍的,可以推广到大规模函数逼近。我们对DQN算法提出了一种特殊的适应方法,结果表明算法不仅减少了所观察到的过估计,正如假设的那样,而且这也在了几款游戏的带来了更好性能。

方法

双Q学习

最优贝尔曼方程

YtQ≡Rt+1+γmax⁡aQ(St+1,a;θt)Y_{t}^{\mathrm{Q}} \equiv R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right)YtQ​≡Rt+1​+γmaxa​Q(St+1​,a;θt​)

上式中的最大运算符使用相同的值来选择和评估动作。这使得选择过度估计的值的可能性更大,从而导致过于乐观的值估计。为了阻止这一点,我们可以将选择从评估中分离出来。这就是Double Q-Learning背后的思想。

在原始的双Q学习算法中,通过将经验样本随意分配给两个Q网络中的一个,训练得到两组权重θ和θ'。 对于每次更新,一组权重用于确定贪婪策略,另一组用于确定其值。 为了进行清晰的比较,我们可以首先分离Q学习中的选择和评估过程,并将其目标写为

YtQ=Rt+1+γQ(St+1,argmax⁡aQ(St+1,a;θt);θt)Y_{t}^{\mathrm{Q}}=R_{t+1}+\gamma Q\left(S_{t+1}, \underset{a}{\operatorname{argmax}} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right) ; \boldsymbol{\theta}_{t}\right)YtQ​=Rt+1​+γQ(St+1​,aargmax​Q(St+1​,a;θt​);θt​)

然后可以将Double Q-learning训练误差写为

Yt Double Q≡Rt+1+γQ(St+1,argmax⁡Q(St+1,a;θt);θt′)Y_{t}^{\text { Double } Q} \equiv R_{t+1}+\gamma Q\left(S_{t+1}, \operatorname{argmax} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right) ; \boldsymbol{\theta}_{t}^{\prime}\right)Yt Double Q​≡Rt+1​+γQ(St+1​,argmaxQ(St+1​,a;θt​);θt′​)

请注意,在 argmaxargmaxargmax 中,动作是根据在线权重θtθ_tθt​选择的。这意味着,与Q学习一样,我们仍然根据 θtθ_tθt​ 定义的值来估计贪婪策略的值。然而,我们使用第二组权重 θ′θ′θ′ 来公平地评估该策略的值。通过切换θ和θ的角色,可以对称地更新第二组权重。

由于估计误差导致的过度乐观

请注意,我们不需要假设不同动作的估计误差是独立的。这个定理表明,即使估计值平均正确,任何的估计误差都可以推动估计值远离真正的最优值。

定理1的下界随着动作的数量而减少, 这是考虑下限的假象。更典型的是,过度乐观随着动作的数量而增加,如图1所示。

Q学习的过估计的确会随着行动的增多而增加,而双Q学习是不偏不倚的。

Double DQN

Yt DoubleDQN ≡Rt+1+γQ(St+1,argmax⁡aQ(St+1,a;θt),θt−)Y_{t}^{\text { DoubleDQN } } \equiv R_{t+1}+\gamma Q\left(S_{t+1}, \operatorname{argmax}_{a} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right), \boldsymbol{\theta}_{t}^{-}\right)Yt DoubleDQN ​≡Rt+1​+γQ(St+1​,argmaxa​Q(St+1​,a;θt​),θt−​)

与Double Q-learning相比,第二个网络的权重被替换为target网络的权重 θtθ_tθt​ ,用于评估当前的贪婪策略。 目标网络的更新与DQN保持不变,并且仍然是当前网络的定期副本。

Deep Reinforcement Learning with Double Q-learning