deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • APE-X DQN
  • APE-X DPG
  • 实验

Was this helpful?

  1. 方法
  2. 蒙特祖玛的复仇

Ape-X

PreviousDQN-PixelCNNNextDQfD

Last updated 5 years ago

Was this helpful?

我们提出了一种用于大规模深度强化学习的分布式架构,使代理能够从数量级上有效地学习比以前更多的数据。 该算法将行为与学习分离:通过根据共享神经网络选择动作,actor与他们自己的环境实例交互,并在共享体验重放记忆中累积所得到的体验; 学习者重放经验样本并更新神经网络。 该体系结构依赖于优先级经验重放,仅针对参与者生成的最重要数据。 我们的架构大大改善了Arcade学习环境的最新技术水平,在壁钟培训时间的一小部分内实现了更好的最终性能。

方法

原则上,actor和learner可以分布在多个worker中。在我们的实验中,数百名参与者在处理器上运行以生成数据,一名学习者在处理器上运行以采样最有用的样本(图1 )。actor和learner的伪代码在算法1和2中显示。更新后的网络参数会定期从学习者处传达给参与者。

与共享梯度相比,共享经验具有一定的优势。 低延迟通信并不像分布式SGD那么重要,因为经验数据比梯度过时更慢,只要学习算法对off-policy数据具有鲁棒性。 在整个系统中,我们通过将所有通信与集中式重放进行批处理来利用这一点,以一定的延迟为代价提高效率和吞吐量。 通过这种方法,参与者和学习者甚至可以在不限制性能的情况下在不同的数据中心运行。

最后,通过学习off-policy,我们可以进一步利用Ape-X整合来自许多分布式参与者的数据的能力,为不同的参与者提供不同的策略,扩大他们共同遇到的体验的多样性。正如我们将在结果中看到的,这足以在困难的勘探问题上取得进展。

APE-X DQN

APE-X DPG

实验

lt(θ)=12(Gt−q(St,At,θ))2l_{t}(\boldsymbol{\theta})=\frac{1}{2}\left(G_{t}-q\left(S_{t}, A_{t}, \boldsymbol{\theta}\right)\right)^{2}lt​(θ)=21​(Gt​−q(St​,At​,θ))2
lt(ψ)=12(Gt−q(St,At,ψ))2l_{t}(\psi)=\frac{1}{2}\left(G_{t}-q\left(S_{t}, A_{t}, \psi\right)\right)^{2}lt​(ψ)=21​(Gt​−q(St​,At​,ψ))2
DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY