deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • TRPO
  • Clipped Surrogate Objective
  • Adaptive KL Penalty Coefficient

Was this helpful?

  1. 方法
  2. 街机游戏

PPO

PreviousTRPONextUNREAL

Last updated 6 years ago

Was this helpful?

我们提出了一个用于强化学习的新的策略梯度方法,它通过与环境的相互作用在采样数据之间交替,并使用随机梯度上升来优化“替代”目标函数。 鉴于标准策略梯度方法针对每个数据样本执行一次梯度更新,我们提出了一种新的目标函数,其允许多个时段的小批量更新。 我们称之为邻域策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些优点,但它们实现起来更简单,更通用,并且具有更好的样本复杂性(根据经验)。 我们的实验测试PPO的一系列基准任务,包括模拟机器人运动和Atari游戏,我们表明PPO优于其他在线政策梯度方法,总体上在样本复杂性,简单性和wall-time之间取得了有利的平衡。

方法

TRPO

在TRPO中,目标函数(“代理”目标)的最大化,受策略更新步长的限制

maximize⁡θE^l[π0(al∣sl)πθ old (al∣sl)A^l]E^l[KL[πθold(⋅∣sl),πθ(⋅∣st)]]≤δ\underset{\theta}{\operatorname{maximize}} \quad \hat{\mathbb{E}}_{l}\left[\frac{\pi_{0}\left(a_{l} | s_{l}\right)}{\pi_{\theta_{\text { old }}}\left(a_{l} | s_{l}\right)} \hat{A}_{l}\right] \\ \hat{\mathbb{E}}_{l}\left[\mathrm{KL}\left[\pi_{\theta_\mathrm{old}}(\cdot | s_{l}), \pi_{\theta}(\cdot | s_{t})\right]\right] \leq \deltaθmaximize​E^l​[πθ old ​​(al​∣sl​)π0​(al​∣sl​)​A^l​]E^l​[KL[πθold​​(⋅∣sl​),πθ​(⋅∣st​)]]≤δ

在对目标进行线性逼近和约束的二次近似之后,使用共轭梯度算法可以有效地近似解决该问题。

证明TRPO的理论实际上建议使用惩罚而不是约束,即解决下面的无约束优化问题

然而,TRPO使用一个约束来代替的原因是: 对于不同的问题最佳的βββ是不同的,甚至在一个任务的不同阶段都会变化。

Clipped Surrogate Objective

设 rl(θ)=πθ(at∣st)πθ old (at∣st), so r(θ old )=1r_{l}(\theta)=\frac{\pi_{\theta}\left(a_{t} | s_{t}\right)}{\pi_{\theta_{\text { old }}}\left(a_{t} | s_{t}\right)}, \text { so } r\left(\theta_{\text { old }}\right)=1rl​(θ)=πθ old ​​(at​∣st​)πθ​(at​∣st​)​, so r(θ old ​)=1 ,上面的约束函数变为:

我们提出的代理损失为,即当概率比的变化会使目标函数提高时,我们忽略它:

其中 ϵ\epsilonϵ是超参数,如 ϵ=0.2\epsilon=0.2ϵ=0.2 ,下图是一个简单示例图

Adaptive KL Penalty Coefficient

这种方法动态调节 βββ ,但是效果没有CLIP好

Proximal Policy Optimization Algorithms