TRPO

Trust Region Policy Optimization

我们描述了一个优化策略的迭代过程,保证了单调的改进。 通过对理论上合理的过程进行几次近似,我们开发了一种称为信任区域策略优化(TRPO)的实用算法。 该算法与自然策略梯度方法类似,对于优化大型非线性策略(如神经网络)是有效的。 我们的实验证明了它在各种任务中的强大性能:学习模拟机器人游泳,跳跃和步行步态; 并使用屏幕图像作为输入玩Atari游戏。 尽管它的近似值偏离了理论,但TRPO倾向于提供单调的改进,通过微调超参数。

方法

预备

定义期望折扣回报

定义价值函数、动作价值函数、动作优势价值函数

上式给出了一个增强策略的梯度方向,然而却没有指出合适的步长,为了解决这个问题我们采用新的思路:

根据 Kakade & Langford (2002) 等人的相关工作有下界关系:

我们只要让下界单调递增,则可实现策略的提升

一般随机策略的单调改进保证

于是有如下算法,可以保证策略的单调递增

我们提出了算法1的近似算法Trust region policy optimization,其使用KL散度作为约束而不是惩罚项,以支持健壮的大步更新。

参数化策略的优化

我们把算法1的问题从

转换为带约束的最大化问题

同时为了方便解决约束问题,我们用平均KL散度替换最大KL散度

于是得到

基于采样的目标和约束估计

最后用重要性采样处理动作求和

得到等价优化目标

剩下的就是用样本均值代替期望值,用经验估计代替Q值。以下部分描述了两种不同的方案来执行这种估计。

实际算法

通常可以分为三步

原文附录C给出了具体的优化算法

总结前面的内容

与前面工作的联系

使用L的线性近似和KL散度的二阶近似,自然梯度更新可以视为TRPO的特例

实验

Last updated