deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • POLICY REGRESSION OBJECTIVE
  • FEATURE REGRESSION OBJECTIVE
  • ACTOR-MIMIC OBJECTIVE
  • CONVERGENCE PROPERTIES OF ACTOR-MIMIC
  • 实验

Was this helpful?

  1. 方法
  2. 街机游戏

Actor-Mimic

PreviousPolicy DistillationNextAction-Conditional Video Prediction

Last updated 5 years ago

Was this helpful?

在多种环境中行动并将先前的知识转移到新环境中的能力可以被认为是任何智能代理的一个关键方面。为了实现这个目标,我们定义了一种新的多任务和迁移学习方法,使自主代理能够同时学习如何在多个任务中运行,然后将其知识推广到新的领域。这种被称为“Actor-Mimic”的方法利用深度强化学习和模型压缩技术来训练一个单一的策略网络,该网络通过几个专家教师的指导来学习如何在一系列不同的任务中行动。然后,我们证明了深层策略网络所学习到的表征能够在没有专家指导的情况下普遍适用于新的任务,加快了在新环境中的学习。虽然我们的方法通常可以应用于广泛的问题,但是我们使用雅达利游戏作为测试环境来演示这些方法。

本算法和Policy Distillation类似,均为用学生网络提取多个专用网络的策略,实现多任务学习。

方法

POLICY REGRESSION OBJECTIVE

令Actor-Mimic网络输出的策略为

πEi(a∣s)=eτ−1QEi(s,a)∑a′∈AEieτ−1QEi(s,a′)\pi_{E_{i}}(a | s)=\frac{e^{\tau^{-1} Q_{E_{i}}(s, a)}}{\sum_{a^{\prime} \in \mathcal{A}_{E_{i}}} e^{\tau^{-1} Q_{E_{i}}\left(s, a^{\prime}\right)}}πEi​​(a∣s)=∑a′∈AEi​​​eτ−1QEi​​(s,a′)eτ−1QEi​​(s,a)​

损失函数为学生网络与指导网络输出的交叉熵

Lpolicyi(θ)=∑a∈AEiπEi(a∣s)log⁡πAMN(a∣s;θ)\mathcal{L}_{\text {policy}}^{i}(\theta)=\sum_{a \in \mathcal{A}_{E_{i}}} \pi_{E_{i}}(a | s) \log \pi_{\mathrm{AMN}}(a | s ; \theta)Lpolicyi​(θ)=a∈AEi​​∑​πEi​​(a∣s)logπAMN​(a∣s;θ)

FEATURE REGRESSION OBJECTIVE

隐藏层套上一个f转换器后用L2损失指导训练

ACTOR-MIMIC OBJECTIVE

两个损失混合起来训练

CONVERGENCE PROPERTIES OF ACTOR-MIMIC

本节分析算法收敛性质,暂略

实验

多任务学习测试

迁移学习测试

LFeatureRegressioni(θ,θfi)=∥fi(hAMN(s;θ);θfi)−hEi(s)∥22\mathcal{L}_{\text {FeatureRegression}}^{i}\left(\theta, \theta_{f_{i}}\right)=\left\|f_{i}\left(h_{\mathrm{AMN}}(s ; \theta) ; \theta_{f_{i}}\right)-h_{E_{i}}(s)\right\|_{2}^{2}LFeatureRegressioni​(θ,θfi​​)=∥fi​(hAMN​(s;θ);θfi​​)−hEi​​(s)∥22​
LActorMimici(θ,θfi)=Lpolicyi(θ)+β∗LF eatureRegression i(θ,θfi)\mathcal{L}_{\text {ActorMimic}}^{i}\left(\theta, \theta_{f_{i}}\right)=\mathcal{L}_{p o l i c y}^{i}(\theta)+\beta * \mathcal{L}_{F \text { eatureRegression }}^{i}\left(\theta, \theta_{f_{i}}\right)LActorMimici​(θ,θfi​​)=Lpolicyi​(θ)+β∗LF eatureRegression i​(θ,θfi​​)
Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning