Proximal Policy Optimization Algorithms
我们提出了一个用于强化学习的新的策略梯度方法,它通过与环境的相互作用在采样数据之间交替,并使用随机梯度上升来优化“替代”目标函数。 鉴于标准策略梯度方法针对每个数据样本执行一次梯度更新,我们提出了一种新的目标函数,其允许多个时段的小批量更新。 我们称之为邻域策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些优点,但它们实现起来更简单,更通用,并且具有更好的样本复杂性(根据经验)。 我们的实验测试PPO的一系列基准任务,包括模拟机器人运动和Atari游戏,我们表明PPO优于其他在线政策梯度方法,总体上在样本复杂性,简单性和wall-time之间取得了有利的平衡。
方法
TRPO
在TRPO中,目标函数(“代理”目标)的最大化,受策略更新步长的限制
θmaximizeE^l[πθ old (al∣sl)π0(al∣sl)A^l]E^l[KL[πθold(⋅∣sl),πθ(⋅∣st)]]≤δ 在对目标进行线性逼近和约束的二次近似之后,使用共轭梯度算法可以有效地近似解决该问题。
证明TRPO的理论实际上建议使用惩罚而不是约束,即解决下面的无约束优化问题
然而,TRPO使用一个约束来代替的原因是: 对于不同的问题最佳的β是不同的,甚至在一个任务的不同阶段都会变化。
Clipped Surrogate Objective
设 rl(θ)=πθ old (at∣st)πθ(at∣st), so r(θ old )=1 ,上面的约束函数变为:
我们提出的代理损失为,即当概率比的变化会使目标函数提高时,我们忽略它:
其中 ϵ是超参数,如 ϵ=0.2 ,下图是一个简单示例图
Adaptive KL Penalty Coefficient
这种方法动态调节 β ,但是效果没有CLIP好