ACER

SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY

本文提出了一个Actor-Critic深度强化学习代理,具有经验重放,稳定,样本效率高的特点,并且在具有挑战性的环境中表现非常好,包括57个离散的Atari游戏和几个连续的控制问题。 为此,本文介绍了几种创新,包括具有偏差校正的截断重要性采样,随机推导网络架构和新的信任域策略优化方法。

方法

DISCRETE ACTOR-CRITIC WITH EXPERIENCE REPLAY

最近Degris等人利用极限分布上的边际值函数对该问题进行了研究,得到了以下近似梯度:

MULTI-STEP ESTIMATION OF THE STATE-ACTION VALUE FUNCTION

IMPORTANCE WEIGHT TRUNCATION WITH BIAS CORRECTION

EFFICIENT TRUST REGION POLICY OPTIMIZATION

Actor-Critic的策略更新经常表现出很大的方差。因此,为了确保稳定,我们必须限制策略的每一步变化。仅仅使用较小的学习速率是不够的,因为他们不能在保持期望的学习速度的同时防止偶尔的大规模更新。信任区域政策优化( TRPO ) 提供了更完善的解决方案。

尽管TRPO方法有效,但每次更新都需要重复计算Fisher向量乘积。这在大规模问题下被证明是非常费时的。

在本节中,我们将介绍一种新的信任域策略优化方法,该方法可以很好地扩展到大规模问题。 我们建议维护一个average policy network代表过去策略的运行平均值,并强制更新的策略不偏离这一平均水平,而不是将更新后的策略限制在接近当前策略(如TRPO)。

给定average policy network,我们建议的信任区域更新包括两个阶段。在第一阶段,我们用线性化KL散度约束来解决以下优化问题

信任区域步骤在分布的统计空间中执行,而不是在策略参数的空间中执行。这样做是故意的,以避免通过策略网络进行额外的反向传播。

ACER算法源于上述想法的组合,所以想要深入理解原理,需参阅上面引用的论文。

CONTINUOUS ACTOR CRITIC WITH EXPERIENCE REPLAY

Retrace需要估计Q和V,但是我们不能轻易连续的动作空间中利用积分求解Q和V。 在本节中,我们以RL的新颖表示形式提出了这个问题的解决方案,以及信任区域更新所需的修改。

POLICY EVALUATION

然而,除了SDN之外,我们还构建了以下用于估计的新目标

TRUST REGION UPDATING

考虑关于随机Deuling Network的ACER策略梯度

接下来就和离散的情况一样了。

伪代码

实验

雅达利游戏机

MuJoCo

Last updated