DDPG + Mixing policy targets

On-policy vs. off-policy updates for deep reinforcement learning

基于时间差异的深度加强学习方法通常由off-policy Q-Learning引导更新。在本文中，我们将研究使用on-policy，Monte Carlo更新的效果。我们的实证结果表明，对于连续作用空间中的DDPG算法，与仅使用一个或另一个目标相比，混合策略上和非策略更新目标表现出优越的性能和稳定性。在离散动作空间中应用于DQN的相同技术大大减慢了学习。我们的发现提出了关于on-policy和off-policy和蒙特卡罗更新的性质及其与深度强化学习方法的关系的问题。