deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • AUXILIARY CONTROL TASKS
  • AUXILIARY REWARD TASKS
  • EXPERIENCE REPLAY
  • UNREAL AGENT
  • 实验

Was this helpful?

  1. 方法
  2. 街机游戏

UNREAL

PreviousPPONextIMPALA

Last updated 5 years ago

Was this helpful?

深度强化学习代理通过直接最大化累积奖励获得了最先进的结果。然而,环境包含了更广泛的各种可能的训练信号。在这篇文章中,我们介绍了一个代理,它能同时通过强化学习最大化许多其他伪奖励函数。所有这些任务都有一个共同的表现形式,就像无监督学习一样,在没有外部奖励的情况下继续发展。我们还引入了一种新的机制,将这种表现集中在外在奖励上,这样学习就可以快速适应与实际任务最相关的方面。我们的代理在Atari上的表现明显优于之前的先进水平,平均880 %的专家人工表现,以及一系列具有挑战性的第一人称三维迷宫任务,速度提高10倍,平均达到87 %的人工表现。

方法

AUXILIARY CONTROL TASKS

给定一组辅助控制任务 CCC , π(c)π_(c)π(​c) 是每个辅助任务的代理策略 c∈Cc \in \mathcal{C}c∈C , πππ 是代理对基础任务的策略。 总体目标是在所有这些辅助任务中最大化总体性能。

arg⁡max⁡θEπ[R1:∞]+λc∑c∈CEπc[R1:∞(c)]\underset{\theta}{\arg \max } \mathbb{E}_{\pi}\left[R_{1 : \infty}\right]+\lambda_{c} \sum_{c \in C} \mathbb{E}_{\pi_{c}}\left[R_{1 : \infty}^{(c)}\right]θargmax​Eπ​[R1:∞​]+λc​∑c∈C​Eπc​​[R1:∞(c)​]

原则上为了同时学习多个辅助任务,应用off-policy,对于每个辅助任务都有一个单独的的损失函数

E[(Rt:t+n+γnmax⁡a′Q(c)(s′,a′,θ−)−Q(c)(s,a,θ))2]\mathbb{E}\left[\left(R_{t : t+n}+\gamma^{n} \max _{a^{\prime}} Q^{(c)}\left(s^{\prime}, a^{\prime}, \theta^{-}\right)-Q^{(c)}(s, a, \theta)\right)^{2}\right]E[(Rt:t+n​+γnmaxa′​Q(c)(s′,a′,θ−)−Q(c)(s,a,θ))2]

辅助回报函数如下:

  • Pixel changes - 感知流的变化通常对应于环境中的重要事件。我们训练代理人学习一个单独的策略,最大限度地改变输入图像上的 n×nn \times nn×n 非重叠网格的每个单元中的像素。

  • Network features - 因为代理的策略或价值网络学会提取环境中与任务相关的高级特征。它们可能是代理学习控制的有用量。因此,激活代理神经网络的任何隐藏单元本身都可以是一种辅助奖励。我们训练代理,学习一个单独的策略,最大限度地激活特定隐藏层中的每个单元。

整体架构如图一所示

AUXILIARY REWARD TASKS

在许多有趣的环境中,奖励非常稀疏,这意味着可能需要很长时间来训练擅长识别表示奖励开始的状态的特征提取器。 我们希望消除奖励和奖励状态的感性稀疏性,以帮助代理人的培训,但这样做的方式不会给代理人的策略带来偏差。

我们引入了前向预测的辅助任务 - reward prediction,在一些历史上下文下预测中间奖励。 该任务包括处理一系列连续观察,并要求代理预测在随后的帧中获得的奖励。 这类似于立即奖励(γ= 0)的价值学习。

EXPERIENCE REPLAY

除了奖励预测之外,我们还使用重放缓冲器来执行value function replay。这相当于从行为策略分布重新采样最近的历史序列并且除了在策略值函数回归A3C之外执行额外值函数回归。 通过重新采样先前的经验,并随机改变计算n步返回的截断窗口的时间位置,值函数重放执行估值并利用由奖励预测形成的新发现的特征。 我们不会歪曲这种情况的分布

经验回放也用于提高辅助控制任务的效率和稳定性。Q学习更新被应用于从重放缓冲器中抽取的采样体验,允许极其有效地开发特性。

UNREAL AGENT

该算法结合了两种独立的、最先进的方法的优点,用于深度强化学习。主要策略由A3C训练。它从并行的经验流中学习,以获得效率和稳定性;使用策略评估方法在线更新;它使用递归神经网络来编码完整的经验历史。这允许代理在部分观察到的环境中有效地学习。

辅助任务是根据最近存储和随机采样的经验序列进行训练的; 这些序列可以优先考虑(在我们的例子中,根据立即奖励排序); 通过Q学习对这些目标进行off-policy训练; 他们可能会使用更简单的前端架构。 这允许以最高效率训练表示。

UNREAL算法针对代理的联合参数 θθθ 优化单个组合损失函数,其将A3C损失 LA3CL_{A3C}LA3C​ 与辅助控制损失 LPCL_{PC}LPC​ ,辅助奖励预测损失 LRPL_{RP}LRP​ 和重放价值损失 LVRL_{VR}LVR​ 组合

LUNREAL(θ)=LA3C+λVRLVR+λPC∑LQ(c)+λRPLRP\mathcal{L}_{U N R E A L}(\theta)=\mathcal{L}_{\mathrm{A} 3 \mathrm{C}}+\lambda_{\mathrm{VR}} \mathcal{L}_{\mathrm{VR}}+\lambda_{\mathrm{PC}} \sum \mathcal{L}_{Q}^{(c)}+\lambda_{\mathrm{RP}} \mathcal{L}_{\mathrm{RP}}LUNREAL​(θ)=LA3C​+λVR​LVR​+λPC​∑LQ(c)​+λRP​LRP​

实验

迷宫任务和雅达利游戏机

Reinforcement Learning with Unsupervised Auxiliary Tasks