IMPALA

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

在这项工作中,我们的目标是使用单个强化学习代理来解决大量任务。 一个关键的挑战是处理增加的数据量和延长的培训时间。 我们开发了一种新的分布式代理IMPALA(Importance Weighted Actor-Learner Architectures),它不仅可以在单机训练中更有效地使用资源,而且可以扩展到数千台机器而不会牺牲数据效率或资源利用率。 通过将解耦的行为学习与一种称为V-trace的校正方法相结合,我们实现了稳定的高吞吐学习。 我们展示了IMPALA在DMLab-30和Atari-57中的多任务强化学习的有效性。 我们的结果表明,IMPALA能够在数据较少的情况下取得比以前的代理更好的性能,并且由于其多任务处理方式,在任务之间表现出了正向的迁移。

方法

IMPALA

V-trace

在解耦的分布式actor-critic架构中,off-policy学习很重要,因为actor生成动作与leaner估计梯度之间存在滞后。 为此,我们为学习者引入了一种新颖的off-policy actor-critic算法,称为V-trace。

V-trace target

所以在on-policy的时候,V-trace退化为on-policy n-steps Bellman update,这个性质允许V-trace同时用于off-policy和on-policy。

Actor-Critic algorithm

策略梯度(Policy Gradient)

现在考虑off-policy的情况,我们可以重要性权重来更新策略参数:

扩展到Actor-Critic

critic梯度

actor梯度

为了防止过早收敛,我们可能增加一个

实验

训练性能

游戏测试

Last updated