Off-Policy Actor-Critic
Last updated
Was this helpful?
Last updated
Was this helpful?
本文提出了第一个off-policy强化学习的actor-critic算法。我们的算法是在线的和增量的,并且每个时间步长的复杂度与学习的权重数量成线性比例。前期的actor-critic算法的局限于on-policy环境,没有利用off-policy的时间差分梯度的优势。off-policy技术,如Greedy-GQ,能够在跟踪和从另一个(行为)策略获取数据的同时学习目标策略。对于许多问题,无论如何,actor-critic方法更实用,因为它们清晰的代表了策略;因此,该策略可以是是随机的,并且可利用大的动作空间。本文阐述了如何将off-policy学习的通用性和学习潜力与actor-critic方法在行动选择中的灵活性相结合,这种灵活性是由actor-critic的方法决定的。我们导出了一个包含资格迹的线性时间和空间复杂度的算法,证明了在类似于以前的off-policy算法的假设下的收敛性,并且在标准强化学习基准问题上,实验显示了比现有算法更好或的性能。
最着名的off-policy方法是Q-learning。 然而,虽然Q-Learnings保证收敛到最优的非线性(非近似)情况,但在使用线性函数逼近时可能会有所不同(Baird,1995)。最小二乘法,如LSTD和LSPI 可以使用off-policy和线性函数,但是计算成本昂贵;它们的复杂度与特征和权重的数量成比例。 最近,这些问题已经被新的梯度-TD(时间差)方法所解决,例如Greedy-GQ,它们具有线性复杂性和收敛性, 具有函数逼近的off-policy学习下。
所有的动作值方法,包括梯度TD方法,如Greedy-GQ,都有三个重要的局限性。首先,他们的目标政策是确定性的,而许多问题都有随机的最优政策,其次,对于较大的动作空间来说,找到关于动作值函数的贪婪动作变得有问题。最后,动作值函数的小变化会导致策略的大变化,这给收敛性证明和一些实时应用带来困难。避免行动价值方法局限性的标准方法是使用策略梯度算法,例如actor-critic。
价值函数定义
动作值函数定义
我们的学习目标是找出一个能最大化下面函数的策略
其中 ,即在动作 和初始状态 下的极限概率分布。用 加权的原因是,在off-policy中,数据是从行为策略的分布获得。
用线性函数近似价值函数:
λ-weighted mean-squared projected Bellman error
策略梯度为
展开得到
下面的定理证明了这个近似(证明见原文附录)
我们现在使用行为策略中的观察样本推导出增量更新算法,首先写出近似策略梯度的期望形式
下一步是替换动作值
这就是前向视角的Off-PAC
请参考原文附录
为了实现前面描述的算法,这里转换为后向视角,关键的一步是
证明见原文附录或者参考资格迹的相关教程
其中 , 的每一行都是一个样本, 是资格迹权重参数, 是一个矩阵(对角元素为), 是一个投影操作, 是λ-weighted Bellman operator(对于终止概率为 的策略 )。在线性情况下, 。
请参考 算法
很难估计,所以忽略掉,得到近似梯度
其中 ,这里引入了新的符号 期望 来隐含地表示条件,所有随机变量(按时间步长索引)都是从行为策略下它们的极限平稳分布中提取出来的。然后减去一个baseline减小方差:
其中off-policy λ-return定义的 为:
其中 是时间差分误差, 是资格迹,由下式更新
然后我们可以得到: