deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page

Was this helpful?

  1. 方法
  2. 街机游戏

Dueling DQN

PreviousPrioritized Experience ReplayNextBootstrapped DQN

Last updated 5 years ago

Was this helpful?

近年来,在强化学习中使用深度表征已经取得了许多成功。尽管如此,这些应用程序中的许多使用传统的架构,如卷积网络、LSTM或自动编码器。在这篇论文中,我们提出了一种新的无模型强化学习的神经网络结构。我们的dueling网络代表两个独立的估计:一个用于状态值函数,一个用于状态相关的行动优势函数。这种分解的主要好处是,在不改变基础强化学习算法的情况下,将跨动作的学习通用化。我们的结果表明,在许多相似价值的行为面前,这种结构导致了更好的策略评估。此外,dueling的架构使我们的RL代理能够在Atari域上达到最优的效果。

方法

正如图2所示,我们的新架构背后的关键观点是,对于许多状态来说,没有必要估算每个动作选择的价值。例如,在耐力赛游戏中,知道是否向左或向右移动只在碰撞明显时才重要。在某些状态,知道采取何种行动至关重要,但在许多其他状态,行动的选择对发生的事情没有影响。然而,对于基于自举的算法,状态值的估计对于每种状态都非常重要。

为了实现这一目标,我们设计了一个单一的Q网络架构,如图1所示,它们更像是dueling网络。 与最初的DQN一样,dueling网络的较低层是卷积。 然而,我们不是使用单个完全连接层序列跟随卷积层,而是使用完全连接层的两个序列(或流)。 构造两个流使得它们具有提供价值和优势函数的单独估计的能力

利用下式,我们可以在DQN算法中使用该网络结构

Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)Q(s, a ; \theta, \alpha, \beta)=V(s ; \theta, \beta)+A(s, a ; \theta, \alpha)Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)

但是这个式子有一个缺点,即无法单独提取出真实的 VVV (价值)和 AAA (动作优势)值,可以考虑一个简单的情况,即VVV 加上一个常量、AAA 减去一个常量,QQQ不变。

所以一种代替的公式是

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−max⁡a′∈∣A∣A(s,a′;θ,α))\begin{array}{c}{Q(s, a ; \theta, \alpha, \beta)=V(s ; \theta, \beta)+} \\ {\left(A(s, a ; \theta, \alpha)-\max _{a^{\prime} \in|\mathcal{A}|} A\left(s, a^{\prime} ; \theta, \alpha\right)\right)}\end{array}Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−maxa′∈∣A∣​A(s,a′;θ,α))​

这样设计的原因是

Dueling Network Architectures for Deep Reinforcement Learning