deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 分布贝尔曼算子
  • 近似分布学习
  • 伪代码
  • 讨论

Was this helpful?

  1. 方法
  2. 街机游戏

Distributional DQN

PreviousIMPALANextNoisy-Net

Last updated 5 years ago

Was this helpful?

在本文中,我们论证了价值分布(强化学习代理接收的随机回报的分布)的基本重要性。 这与强化学习的通用方法不同,后者为这种回归或价值的期望建模。尽管已经有一套研究价值分布的成熟的体系,但到目前为止,它一直被用于特定目的,例如实施风险敏感的的行为。 我们从策略评估和控制设置的理论结果开始,揭示了后者的显着分布不稳定性。 然后从分布的角度设计了一种新的算法,将Bellman等式应用于近似分布的学习。我们使用街机学习环境中的游戏集来评估我们的算法。我们获得了最新的结果和轶事证据,证明了价值分布在接近配偶强化学习中的重要性。最后,我们从理论和经验两方面论证了价值分布在近似环境下对学习的影响。

从算法的角度来看,学习近似分布而不是近似期望有很多好处。 分布式Bellman算子在有价值分布中保留多模态,我们相信这会导致更稳定的学习。 近似完整分布也减轻了从不稳定的学习的影响。

方法

贝尔曼等式

Qπ(x,a):=EZπ(x,a)=E[∑t=0∞γtR(xt,at)]xt∼P(⋅∣xt−1,at−1),at∼π(⋅∣xt),x0=x,a0=a\begin{array}{l}{Q^{\pi}(x, a) :=\mathbb{E} Z^{\pi}(x, a)=\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^{t} R\left(x_{t}, a_{t}\right)\right]} \\ {x_{t} \sim P(\cdot | x_{t-1}, a_{t-1}), a_{t} \sim \pi(\cdot | x_{t}), x_{0}=x, a_{0}=a}\end{array}Qπ(x,a):=EZπ(x,a)=E[∑t=0∞​γtR(xt​,at​)]xt​∼P(⋅∣xt−1​,at−1​),at​∼π(⋅∣xt​),x0​=x,a0​=a​

其中 ZZZ 是一个分布而不是期望值,为了最大化 QQQ 值,通常使用下面的方法

Q∗(x,a)=ER(x,a)+γEPmax⁡a′∈AQ∗(x′,a′)Q^{*}(x, a)=\mathbb{E} R(x, a)+\gamma \mathbb{E}_{P} \max _{a^{\prime} \in \mathcal{A}} Q^{*}\left(x^{\prime}, a^{\prime}\right)Q∗(x,a)=ER(x,a)+γEP​a′∈Amax​Q∗(x′,a′)

贝尔曼/最优算子定义

分布贝尔曼算子

仅对算法贡献感兴趣的读者 可以选择跳过这一节

Distributional Equations

The Wasserstein Metric

定义两个累计分布函数的Wasserstein尺度

对于两个随机变量定义

Wasserstein尺度有以下性质

引理1、2

Policy Evaluation

随机性的三个来源定义了复合分布,我们通常假设这三个量是独立的

引理3

Control

最优价值分布和贪心策略定义

最优贝尔曼算子等价于

引理4

近似分布学习

在本节中,我们提出了一种基于分布Bellman最优性算子的算法。 特别是,这将需要选择近似分布。 已经有人使用过高斯分布了,这里我们考虑使用离散分布。

Parametric Distribution

我们将使用离散分布来模拟价值分布,离散分布具有高度表达和计算友好的优点:

Projected Bellman Update

由于此算法离散atom数量在ALE上设置51个效果最好,又被称为C51算法

伪代码

讨论

为什么使用分布DQN?

Reduced chattering 即减少震荡,降低不稳定性

State aliasing 由于部分观测,相似的状态可能Value很不相同,而使用distribution则可以缓解这个问题

A richer set of predictions

Framework for inductive bias 使用distribution可以很容易的添加bound假设

Well-behaved optimization ,使用KL Divergence可以很容易的最小化损失

(Ω,F,Pr)(\Omega, \mathcal{F}, \mathrm{Pr})(Ω,F,Pr)是概率空间

∥u∥p\|\mathbf{u}\|_{p}∥u∥p​ 表示 u∈RX\mathbf{u} \in \mathbb{R}^{\mathcal{X}}u∈RX 的 LpL_{p}Lp​ 范数

当U:Ω→RX( or RX×A)U : \Omega \rightarrow \mathbb{R}^{\mathcal{X}}\left(\text { or } \mathbb{R}^{\mathcal{X} \times \mathcal{A}}\right)U:Ω→RX( or RX×A) ,有∥U∥p:=[E[∥U(ω)∥pp]]1/p\|U\|_{p} :=\left[\mathbb{E}\left[\|U(\omega)\|_{p}^{p}\right]\right]^{1 / p}∥U∥p​:=[E[∥U(ω)∥pp​]]1/p,并且 ∥U∥∞=ess⁡sup⁡∥U(ω)∥∞\|U\|_{\infty}=\operatorname{ess} \sup \|U(\omega)\|_{\infty}∥U∥∞​=esssup∥U(ω)∥∞​

累积分布函数 FU(y):=Pr⁡{U≤y}F_{U}(y) :=\operatorname{Pr}\{U \leq y\}FU​(y):=Pr{U≤y} ,逆函数 FU−1(q):=inf⁡{y:FU(y)≥q}F_{U}^{-1}(q) :=\inf \left\{y : F_{U}(y) \geq q\right\}FU−1​(q):=inf{y:FU​(y)≥q}

U:=DVU \overset{D}{:=}VU:=DV 表示两个随机变量的分布相同

dp(F,G):=inf⁡U,V∥U−V∥pd_{p}(F, G) :=\inf _{U, V}\|U-V\|_{p}dp​(F,G):=infU,V​∥U−V∥p​

其中下界是关于累积分布的所有的随机变量 (U,V)(U, V)(U,V) ,通过均匀随机变量 U in [0,1]\mathcal{U}\ in\ [0,1]U in [0,1] 的逆累计分布函数获得此下限

dp(F,G)=∥F−1(U)−G−1(U)∥pd_{p}(F, G)=\left\|F^{-1}(\mathcal{U})-G^{-1}(\mathcal{U})\right\|_{p}dp​(F,G)=​F−1(U)−G−1(U)​p​

p<∞p<\inftyp<∞ 时,可写为

dp(F,G)=(∫01∣F−1(u)−G−1(u)∣pdu)1/pd_{p}(F, G)=\left(\int_{0}^{1}\left|F^{-1}(u)-G^{-1}(u)\right|^{p} d u\right)^{1 / p}dp​(F,G)=(∫01​​F−1(u)−G−1(u)​pdu)1/p

dp(U,V)=inf⁡U,V∥U−V∥pd_{p}(U, V)=\inf _{U, V}\|U-V\|_{p}dp​(U,V)=infU,V​∥U−V∥p​

dp(aU,aV)≤∣a∣dp(U,V)(Pl)dp(A+U,A+V)≤dp(U,V)(P2)dp(AU,AV)≤∥A∥pdp(U,V)(P3)\begin{aligned} d_{p}(a U, a V) \leq|a| d_{p}(U, V) &(\mathrm{Pl}) \\ d_{p}(A+U, A+V) \leq d_{p}(U, V) &(\mathrm{P} 2) \\ d_{p}(A U, A V) \leq\|A\|_{p} d_{p}(U, V) &(\mathrm{P} 3) \end{aligned}dp​(aU,aV)≤∣a∣dp​(U,V)dp​(A+U,A+V)≤dp​(U,V)dp​(AU,AV)≤∥A∥p​dp​(U,V)​(Pl)(P2)(P3)​

定义转移算子 Pπ:Z→ZP^{\pi} : \mathcal{Z} \rightarrow \mathcal{Z}Pπ:Z→Z

PπZ(x,a):=Z(X′,A′)X′∼P(⋅∣x,a),A′∼π(⋅∣X′)\begin{aligned} P^{\pi} Z(x, a) & :=Z\left(X^{\prime}, A^{\prime}\right) \\ X^{\prime} & \sim P(\cdot | x, a), A^{\prime} \sim \pi(\cdot | X^{\prime}) \end{aligned}PπZ(x,a)X′​:=Z(X′,A′)∼P(⋅∣x,a),A′∼π(⋅∣X′)​

我们定义了分布Bellman算子 Tπ:Z→Z\mathcal{T}^{\pi} : \mathcal{Z} \rightarrow \mathcal{Z}Tπ:Z→Z

TπZ(x,a):=DR(x,a)+γPπZ(x,a)\mathcal{T}^{\pi} Z(x, a) : \stackrel{D}{=} R(x, a)+\gamma P^{\pi} Z(x, a)TπZ(x,a):=DR(x,a)+γPπZ(x,a)

这说明 Zk+1:=TπZkZ_{k+1} :=T^{\pi} Z_{k}Zk+1​:=TπZk​ 在尺度 d‾p\overline{d}_{p}dp​ 下收缩,然而可能不适用于其他的尺度。

因此,我们希望 ZkZ_kZk​ 能够快速收敛到一个fixed point,然而这可能很慢或者不确定。实际上,我们可以希望pointwise convergence,即收敛到 nonstationary optimal value distributions。

将定理1与引理4相比较揭示了分布框架和通常的期望设置之间的显著差异。虽然 ZkZ_{k}Zk​ 的平均值迅速指数收敛到 Q∗Q^*Q∗ ,但它的分布不需要表现得那么好!为了强调这种差异,我们提供了一些负面结果,如下:

Zθ(x,a)=zi w.p. pi(x,a):=eθi(x,a)∑jeθj(x,a)Z_{\theta}(x, a)=z_{i} \quad \text { w.p. } p_{i}(x, a) :=\frac{e^{\theta_{i}(x, a)}}{\sum_{j} e^{\theta_{j}(x, a)}}Zθ​(x,a)=zi​ w.p. pi​(x,a):=∑j​eθj​(x,a)eθi​(x,a)​

其中 {zi=VMIN+i△z:0≤i<N},Δz:=VmAx−VMINN−1\left\{z_{i}=V_{\mathrm{MIN}}+i \triangle z : 0 \leq\right.i<N \},\Delta z :=\frac{V_{\mathrm{mAx}}-V_{\mathrm{MIN}}}{N-1}{zi​=VMIN​+i△z:0≤i<N},Δz:=N−1VmAx​−VMIN​​

使用离散的分布造成了一个问题:贝尔曼更新 TZθ\mathcal{T} Z_{\theta}TZθ​ 和我们的 ZθZ_{\theta}Zθ​ 几乎总是有disjoint support()。从前面一节(分布贝尔曼算子)的分析来看,将 TZθ and Zθ\mathcal{T} Z_{\theta} \text { and } Z_{\theta}TZθ​ and Zθ​的 Wasserstein metric(视为损失)最小化之间似乎很自然,但是Wasserstein loss无法在采样的样本下学习。

我们的解决方案是,将贝尔曼更新TZθ\mathcal{T} Z_{\theta}TZθ​ 投影到 ZθZ_{\theta}Zθ​ 的support

给定样本 (x,a,r,x′)\left(x, a, r, x^{\prime}\right)(x,a,r,x′) ,贝尔曼更新为: T^zj:=r+γzj\hat{\mathcal{T}} z_{j} :=r+\gamma z_{j}T^zj​:=r+γzj​ ,然后将概率 pj(x′,π(x′))p_{j}\left(x^{\prime}, \pi\left(x^{\prime}\right)\right)pj​(x′,π(x′)) 分配给 T^zj\hat{T} z_{j}T^zj​ 的邻居,第 iii 个投影更新 ΦT^Zθ(x,a)\Phi \hat{\mathcal{T}} Z_{\theta}(x, a)ΦT^Zθ​(x,a) 为:

(ΦT^Zθ(x,a))i=∑j=0N−1[1−∣[T^zj]VminVmax⁡−zi∣Δz]01pj(x′,π(x′))\left(\Phi \hat{\mathcal{T}} Z_{\theta}(x, a)\right)_{i}=\sum_{j=0}^{N-1}\left[1-\frac{\left|\left[\hat{\mathcal{T}} z_{j}\right]_{V_{\mathrm{min}}}^{V_{\max }}-z_{i}\right|}{\Delta z}\right]_{0}^{1} p_{j}\left(x^{\prime}, \pi\left(x^{\prime}\right)\right)(ΦT^Zθ​(x,a))i​=j=0∑N−1​​1−Δz​[T^zj​]Vmin​Vmax​​−zi​​​​01​pj​(x′,π(x′))

其中 [⋅]ab[\cdot]_{a}^{b}[⋅]ab​ 即限制上下界为 [a,b][a, b][a,b]

然后损失函数使用KL散度 DKL(ΦT^Zθ~(x,a)∥Zθ(x,a))D_{\mathrm{KL}}\left(\Phi \hat{\mathcal{T}} Z_{\tilde{\theta}}(x, a) \| Z_{\theta}(x, a)\right)DKL​(ΦT^Zθ~​(x,a)∥Zθ​(x,a)) ,再用梯度下降优化即可

https://en.wikipedia.org/wiki/Support_(mathematics)
A Distributional Perspective on Reinforcement Learning
Wasserstein尺度引理