Trust Region Policy Optimization
我们描述了一个优化策略的迭代过程,保证了单调的改进。 通过对理论上合理的过程进行几次近似,我们开发了一种称为信任区域策略优化(TRPO)的实用算法。 该算法与自然策略梯度方法类似,对于优化大型非线性策略(如神经网络)是有效的。 我们的实验证明了它在各种任务中的强大性能:学习模拟机器人游泳,跳跃和步行步态; 并使用屏幕图像作为输入玩Atari游戏。 尽管它的近似值偏离了理论,但TRPO倾向于提供单调的改进,通过微调超参数。
方法
预备
定义期望折扣回报
η(π)=Es0,a0,…[∑t=0∞γtr(st)], where s0∼ρ0(s0),at∼π(at∣st),st+1∼P(st+1∣st,at)
定义价值函数、动作价值函数、动作优势价值函数
Qπ(st,at)=Est+1,at+1,…[∑l=0∞γlr(st+l)]Vπ(st)=Eat,st+1,…[∑l=0∞γlr(st+l)]Aπ(s,a)=Qπ(s,a)−Vπ(s), where at∼π(at∣st),st+1∼P(st+1∣st,at) for t≥0 定义策略 π~ 相对于策略 π 的期望优势
η(π~)=η(π)+Es0,a0,⋯∼π~[∑t=0∞γtAπ(st,at)]
即动作根据π~采样,策略评估还是使用 π
令 ρπ(s)=P(s0=s)+γP(s1=s)+γ2P(s2=s)+… ,上式可写为
η(π~)=η(π)+t=0∑s∑P(st=s∣π~)a∑π~(a∣s)γtAπ(s,a)=η(π)+s∑t=0∑∞γtP(st=s∣π~)a∑π~(a∣s)Aπ(s,a)=η(π)+s∑ρπ~(s)a∑π~(a∣s)Aπ(s,a) 上式给出了一个增强策略的梯度方向,然而却没有指出合适的步长,为了解决这个问题我们采用新的思路:
根据 Kakade & Langford (2002) 等人的相关工作有下界关系:
我们只要让下界单调递增,则可实现策略的提升
一般随机策略的单调改进保证
于是有如下算法,可以保证策略的单调递增
我们提出了算法1的近似算法Trust region policy optimization,其使用KL散度作为约束而不是惩罚项,以支持健壮的大步更新。
参数化策略的优化
我们把算法1的问题从
转换为带约束的最大化问题
同时为了方便解决约束问题,我们用平均KL散度替换最大KL散度
于是得到
基于采样的目标和约束估计
最后用重要性采样处理动作求和
得到等价优化目标
剩下的就是用样本均值代替期望值,用经验估计代替Q值。以下部分描述了两种不同的方案来执行这种估计。
实际算法
通常可以分为三步
原文附录C给出了具体的优化算法
总结前面的内容
与前面工作的联系
使用L的线性近似和KL散度的二阶近似,自然梯度更新可以视为TRPO的特例
实验