deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 确定性策略梯度(DPG)
  • 实验

Was this helpful?

  1. 方法
  2. 竞速游戏

DDPG

PreviousDirect PerceptionNextTD3

Last updated 5 years ago

Was this helpful?

我们将深度Q-Learning成功的基本思想适应于连续化的领域。 我们提出了一种基于可以在连续动作空间上操作的去终止策略梯度的演员评论,无模型算法。 使用相同的学习算法,网络架构和超参数,我们的算法可以有力地解决20多个模拟物理任务,包括经典问题,如推车摆动,灵巧操纵,腿式运动和汽车驾驶。 我们的算法能够找到性能与计划算法所发现的策略具有竞争性的策略,并且可以完全访问域及其衍生物的动态。 我们进一步证明,对于许多任务,算法可以“端对端”学习策略:直接来自原始像素输入。

方法

为了最大化回报,我们通常对期望回报函数进行微分,得到一个策略梯度来优化策略参数。

确定性策略梯度(DPG)

Silver 等人证明了确定性策略梯度定理

∇θμJ≈Est∼ρβ[∇θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)]=Est∼ρβ[∇aQ(s,a∣θQ)∣s=st,a=μ(st)∇θμμ(s∣θμ)∣s=st]\begin{aligned} \nabla_{\theta^{\mu}} J & \approx \mathbb{E}_{s_{t} \sim \rho^{\beta}}\left[\nabla_{\theta^{\mu}} Q\left.(s, a | \theta^{Q})\right|_{s=s_{t}, a=\mu\left(s_{t} | \theta^{\mu}\right)}\right] \\ &=\mathbb{E}_{s_{t} \sim \rho^{\beta}}\left[\nabla_{a} Q\left.(s, a | \theta^{Q})\right|_{s=s_{t}, a=\mu\left(s_{t}\right)} \nabla_{\theta_{\mu}} \mu\left.(s | \theta^{\mu})\right|_{s=s_{t}}\right] \end{aligned}∇θμ​J​≈Est​∼ρβ​[∇θμ​Q(s,a∣θQ)​s=st​,a=μ(st​∣θμ)​]=Est​∼ρβ​[∇a​Q(s,a∣θQ)​s=st​,a=μ(st​)​∇θμ​​μ(s∣θμ)∣s=st​​]​

其中 Q(s,a)Q(s, a)Q(s,a) 是动作值函数, μ(s)\mu(s)μ(s) 是连续动作函数,即Actor-Critic架构中的Critic和Actor。

用深度神经网络作为函数拟合器得到深度确定性梯度(DDPG)算法

其中 NtN_tNt​ 是用于动作探索的噪音。和DQN一样,DDPG也有当前网络和目标网络之分,其中目标网络采用软更新的方式逐步复制当前网络的参数。Critic的学习和DQN一样使用时间差分算法,Actor则用确定性策略梯度定理来优化。最后,DDPG也用经验池来保证充分利用样本。

实验

文中提到用BNN可以提升训练的效果,然而Weight Normalization的论文提到BNN会使得DQN学习不稳定。在我的实验中,小BATCH_SIZE情况下DDPG确实难以学到东西,毕竟DDPG的Critic部分和DQN类似。

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING