PPO

Proximal Policy Optimization Algorithms

我们提出了一个用于强化学习的新的策略梯度方法,它通过与环境的相互作用在采样数据之间交替,并使用随机梯度上升来优化“替代”目标函数。 鉴于标准策略梯度方法针对每个数据样本执行一次梯度更新,我们提出了一种新的目标函数,其允许多个时段的小批量更新。 我们称之为邻域策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些优点,但它们实现起来更简单,更通用,并且具有更好的样本复杂性(根据经验)。 我们的实验测试PPO的一系列基准任务,包括模拟机器人运动和Atari游戏,我们表明PPO优于其他在线政策梯度方法,总体上在样本复杂性,简单性和wall-time之间取得了有利的平衡。

方法

TRPO

在TRPO中,目标函数(“代理”目标)的最大化,受策略更新步长的限制

maximizeθE^l[π0(alsl)πθ old (alsl)A^l]E^l[KL[πθold(sl),πθ(st)]]δ\underset{\theta}{\operatorname{maximize}} \quad \hat{\mathbb{E}}_{l}\left[\frac{\pi_{0}\left(a_{l} | s_{l}\right)}{\pi_{\theta_{\text { old }}}\left(a_{l} | s_{l}\right)} \hat{A}_{l}\right] \\ \hat{\mathbb{E}}_{l}\left[\mathrm{KL}\left[\pi_{\theta_\mathrm{old}}(\cdot | s_{l}), \pi_{\theta}(\cdot | s_{t})\right]\right] \leq \delta

在对目标进行线性逼近和约束的二次近似之后,使用共轭梯度算法可以有效地近似解决该问题。

证明TRPO的理论实际上建议使用惩罚而不是约束,即解决下面的无约束优化问题

然而,TRPO使用一个约束来代替的原因是: 对于不同的问题最佳的ββ是不同的,甚至在一个任务的不同阶段都会变化。

Clipped Surrogate Objective

rl(θ)=πθ(atst)πθ old (atst), so r(θ old )=1r_{l}(\theta)=\frac{\pi_{\theta}\left(a_{t} | s_{t}\right)}{\pi_{\theta_{\text { old }}}\left(a_{t} | s_{t}\right)}, \text { so } r\left(\theta_{\text { old }}\right)=1 ,上面的约束函数变为:

我们提出的代理损失为,即当概率比的变化会使目标函数提高时,我们忽略它:

其中 ϵ\epsilon是超参数,如 ϵ=0.2\epsilon=0.2 ,下图是一个简单示例图

Adaptive KL Penalty Coefficient

这种方法动态调节 ββ ,但是效果没有CLIP好