Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation
在这项工作中,我们建议用最近提出的Kronecker-factored approximation curvature将信赖域优化应用于深度强化学习。我们扩展了自然策略梯度的框架,提出了利用带信任区域的Kronecker-factored approximation curvature(K-FAC)来优化actor和critic;因此,我们此算法其称为Actor Critic using Kronecker-Factored Trust Region (ACKTR),据我们所知,这是Actor-Critic方法中第一个可扩展的信任区域自然梯度方法。它也是一种直接从原始像素输入中学习连续控制中的非平凡任务以及离散控制策略的方法。我们在Atari游戏中的离散域以及MuJoCo环境中的连续域中测试了我们的方法。使用所提出的方法,我们能够获得更高的回报,并比之前的最佳的on-policy的actor-critic样本效率平均提高2 - 3倍。
方法
Natural gradient using Kronecker-factored approximation
假设神经网络输出一个分布 f(θ) ,为了最小化该分布相关的目标函数 J(θ) ,最速下降法在有约束 ∥Δθ∥B<1 的情况下计算一个 Δθ 使得 J(θ+Δθ) 具有最小,其中 ∥⋅∥B 是一个范数,即 ∥x∥B=(xTBx)21 ( B 是一个半正定矩阵)。可以得到这个问题的解是: Δθ∝−B−1∇θJ 。当B 是单位矩阵 I (即欧式范数)时,此方法又被称为梯度下降。然而这种欧式范数是依赖于参数 θ 的,即它体现的不是分布的距离而是参数 θ 的距离,如下图:
从流形的角度理解自然梯度
K-FAC的近似理论证明
Natural gradient in actor-critic
本节介绍如何将自然梯度引入 actor-critic 算法中。actor网络的费雪信息矩阵如下:
然后同步更新actor和critic
Step-size Selection and trust-region optimization
上下两图中,左右分布的参数距离均为2,但是他们的分布距离却截然不同,即上图重叠区小,下图重叠区大。因为这个范数是参数 θ 相关的,所以参数 θ 会影响优化的轨迹,这是不合理的,实际上应当只允许分布影响优化轨迹。
而费雪信息矩阵 F 是 KL 散度的二阶近似,他是独立于参数 θ的,只与分布有关,所以利用费雪信息矩阵构建上面的范数约束,可以使得优化更加稳定和有效,这也被称为自然梯度。然而费雪矩阵的求逆是一个复杂所以不实际的操作,因此我们必须使用某种近似方法。
Kronecker-factored approximate curvature (K-FAC)就是这样的一种方法。假设 p(y∣x) 是神经网络拟合的分布, L=logp(y∣x) 即其似然函数。定义 W∈RCout×Cin 是神经网络第L层的权重参数,且 a∈RCin 是L层的输入,有输出 s=Wa 。根据矩阵求导术可以得到标准梯度 ∇WL=(∇sL)a⊤ ,K-FAC使用下面的近似方法计算神经网络第L层参数的费雪信息矩阵:
Fℓ=E[vec{∇WL}vec{∇WL}⊤]=E[aa⊤⊗∇sL(∇sL)⊤]≈E[aa⊤]⊗E[∇sL(∇sL)⊤]:=A⊗S:=F^ℓ
其中⊗ 是Kronecker product: A⊗B=a11B⋮am1B⋯⋱⋯a1nB⋮amnB
又根据Kronecker product的性质 (P⊗Q)−1=P−1⊗Q−1 and (P⊗Q)vec(T)=PTQ⊤ ,可得自然梯度近似公式
vec(ΔW)=F^ℓ−1vec{∇WJ}=vec(A−1∇WJS−1)
F=Ep(τ)[∇θlogπ(at∣st)(∇θlogπ(at∣st))⊤]
其中 p(τ)是样本轨迹的分布,即 p(s0)∏t=0Tπ(at∣st)p(st+1∣st,at) 。
而对于标准的critic网络,其输出值是一个标量而非分布,无法定义费雪信息矩阵,所以我们引入高斯分布来解决这个问题:假设critic的输出由 p(v∣st)∼N(v;V(st),σ2) 定义,于是我们便可以基于高斯分布定义相关的费雪信息矩阵。
如果actor和critic共用一个网络,我们假设网络的输出是一个联合分布 p(a,v∣s)=π(a∣s)p(v∣s) ,然后定义费雪信息矩阵为:
Ep(τ)[∇logp(a,v∣s)∇logp(a,v∣s)T]
对于随机梯度下降,参数的更新方式为θ←θ−ηF−1∇θL ,但是在RL的环境中,有时候会出现大的更新步伐,导致算法过早收敛到接近确定性的策略。所以就出现了TRPO这种信任区域更新的方法,这里我们选择 min(ηmax,ΔθτFΔθ2δ) 作为学习速率 η ,其中 δ 是半径超参。