deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • Progressive Neural Networks
  • Adapters
  • 分析方法
  • Average Perturbation Sensitivity (APS)
  • Average Fisher Sensitivity (AFS)
  • 实验
  • Pong Soup

Was this helpful?

  1. 方法
  2. 街机游戏

Progressive Neural Networks

PreviousMultiagent DQNNextA3C

Last updated 5 years ago

Was this helpful?

学习解决复杂的任务序列——同时利用转移和避免灾难性遗忘——仍然是实现人类智能的关键障碍。渐进式网络方法在这个方向上向前迈进了一步:它们不容易遗忘,且可以通过与之前学习过的特征之间的横向连接利用先验知识。我们在各种强化学习任务(雅达利和3D 迷宫)上对该架构进行了广泛的评估,并证明它优于基于预处理和微调的通用基准。利用一种新的灵敏度测量方法,我们证明了迁移发生在学习策略的低水平感觉层和高水平控制层。

方法

Progressive Neural Networks

渐进网络以单列开始:一个 LLL 层的深度神经网络且带有隐藏激活层 hi(1)∈Rnih_{i}^{(1)} \in \mathbb{R}^{n_{i}}hi(1)​∈Rni​ ( i≤Li \leq Li≤L ),并且参数 Θ(1)\Theta(1)Θ(1) 已经收敛。当切换到第二个任务时,参数Θ(1)\Theta(1)Θ(1)被“冻结”,并且参数Θ(2)\Theta(2)Θ(2)的新列被实例化(随机初始化),其中隐层 hi(2)h_{i}^{(2)}hi(2)​ 通过横向连接从 hi−1(2)h_{i-1}^{(2)}hi−1(2)​ 和hi−1(1)h_{i-1}^{(1)}hi−1(1)​接收输入,推广到第K个任务:

hi(k)=f(Wi(k)hi−1(k)+∑j<kUi(k:j)hi−1(j))h_{i}^{(k)}=f\left(W_{i}^{(k)} h_{i-1}^{(k)}+\sum_{j<k} U_{i}^{(k : j)} h_{i-1}^{(j)}\right)hi(k)​=f​Wi(k)​hi−1(k)​+j<k∑​Ui(k:j)​hi−1(j)​​

下图是K=3时的网络结构

这些建模方法是由我们的目的决定的: ( 1 )在训练结束时解决独立的任务;( 2 )尽可能通过迁移加速学习;( 3 )避免灾难性遗忘。

Adapters

在实践中,我们使用非线性横向连接(我们称之为Adapter)来增强前面的渐进网络层,它们既可以改善初始条件,也可以降低维度。

分析方法

Average Perturbation Sensitivity (APS)

为了评估每个列对目标任务的贡献程度,我们可以在架构中的孤立点注入高斯噪声(例如单个列的单层),并测量这种扰动对性能的影响。性能的显著下降表明最终预测严重依赖于该层。我们发现这种方法产生的结果与下面提出的基于Fisher的快速方法相似。

Average Fisher Sensitivity (AFS)

实验

Pong Soup

这里使用了雅达利游戏中的乒乓游戏的变体进行测试,包括:噪声(固定高斯噪声被加到输入端);黑色(黑色背景);白色(白色背景);缩放(输入缩放75 %);V型翻转、H型翻转和VH型翻转(输入水平和/或垂直翻转)

Baseline2 (单列,只微调输出层 )在大多数实验中无法学习目标任务,因此具有负迁移。这种方法在有监督的学习环境中非常标准,在这种环境中,ImageNet训练的网络的功能通常会重新用于新的领域。

正如预期的那样,我们观察到Baseline3 (单列,完全微调)的好的正迁移,这是一个公认的迁移范例。然而,Progress Networks在中值和平均得分方面都优于这一Baseline,后面的差异更为明显。

下图是扰动分析的结果

hi(k)=σ(Wi(k)hi−1(k)+Ui(k:j)σ(Vi(k:j)αi−1(<k)hi−1(<k)))h_{i}^{(k)}=\sigma\left(W_{i}^{(k)} h_{i-1}^{(k)}+U_{i}^{(k : j)} \sigma\left(V_{i}^{(k : j)} \alpha_{i-1}^{(<k)} h_{i-1}^{(<k)}\right)\right)hi(k)​=σ(Wi(k)​hi−1(k)​+Ui(k:j)​σ(Vi(k:j)​αi−1(<k)​hi−1(<k)​))

其中 hi−1(<k)=[hi−1(1)⋯hi−1(j)⋯hi−1(k−1)]h_{i-1}^{(<k)}=\left[h_{i-1}^{(1)} \cdots h_{i-1}^{(j)} \cdots h_{i-1}^{(k-1)}\right]hi−1(<k)​=[hi−1(1)​⋯hi−1(j)​⋯hi−1(k−1)​] , αi−1(<k)\alpha_{i-1}^{(<k)}αi−1(<k)​ 是可学习的权重系数,Vi(k:j)∈Rni−1×ni−1(<k)V_{i}^{(k : j)} \in \mathbb{R}^{n_{i-1} \times n_{i-1}^{(<k)}}Vi(k:j)​∈Rni−1​×ni−1(<k)​ 是投影函数,在卷积神经网络中,用 1∗11*11∗1 的卷积实现降维。

我们可以利用Fisher信息矩阵得到扰动敏感度的局部近似值。虽然Fisher矩阵通常是相对于模型参数计算的,我们对策略网络 π\piπ 的每一层的标准化激活值 h^i(k)\hat{h}_{i}^{(k)}h^i(k)​ 计算修改的对角Fisher F^\hat{F}F^ ,F^\hat{F}F^ 可以解释为策略对表示中微小变化的敏感性。我们定义第i层(m个特征)的对角矩阵 F^\hat{F}F^ 如下

F^i(k)=Eρ(s,a)[∂log⁡π∂h^i(k)∂log⁡πT∂h^i(k)]AFS⁡(i,k,m)=F^i(k)(m,m)∑kF^i(k)(m,m)\hat{F}_{i}^{(k)}=\mathbb{E}_{\rho(s, a)}\left[\frac{\partial \log \pi}{\partial \hat{h}_{i}^{(k)}} \frac{\partial \log \pi^{T}}{\partial \hat{h}_{i}^{(k)}}\right] \quad \operatorname{AFS}(i, k, m) \quad=\frac{\hat{F}_{i}^{(k)}(m, m)}{\sum_{k} \hat{F}_{i}^{(k)}(m, m)}F^i(k)​=Eρ(s,a)​[∂h^i(k)​∂logπ​∂h^i(k)​∂logπT​]AFS(i,k,m)=∑k​F^i(k)​(m,m)F^i(k)​(m,m)​
Progressive Neural Networks