deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 优先回放
  • 退火偏差
  • 伪代码

Was this helpful?

  1. 方法
  2. 街机游戏

Prioritized Experience Replay

PreviousDouble DQNNextDueling DQN

Last updated 5 years ago

Was this helpful?

经验回放让在线强化学习代理能够记住并重用过去的经验。 在先前的工作中,经验转移是从回放存储器统一采样的。 然而,这种方法只是以与它们最初经历的频率相同的频率回放样本,而不管其重要性如何。 在本文中,我们开发了一个优先考虑体验的框架,以便更频繁地重放重要的转换,从而更有效地学习。 我们在Deep Q-Networks(DQN)中使用优先级经验重放,这是一种在多种Atari游戏中实现人类性能的强化学习算法。 具有优先经验回放的DQN在49场比赛中的41场比赛中实现了最好效果,超过了DQN和均匀回放。

方法

优先回放

优先回放的核心组成部分是衡量样本重要性的指标。 一个理想化的标准是RL代理可以从当前样本(预期的学习进度)中学习到的东西。 虽然这个指标不能直接获得,但合理的等价物是样本的TD误差 δδδ 的大小。

但是这个算法有一些缺点:首先,为了避免在整个重放存储器上进行费时的扫描,TD错误仅针对重放的样本进行更新。一种后果是,第一次访问时TD误差低的样本可能不会被长时间重放。此外,它对噪声尖峰很敏感(例如,当奖励是随机的),这可能会因自举而加剧。

为了克服这些问题,我们引入了一种随机抽样方法,在纯贪婪优先和均匀随机抽样之间进行插值。我们确保被采样的概率在转变的优先级上是单调的,同时保证非零概率,即使是最低优先级的转变。具体来说,我们定义了采样的概率:

P(i)=piα∑kpkαP(i)=\frac{p_{i}^{\alpha}}{\sum_{k} p_{k}^{\alpha}}P(i)=∑k​pkα​piα​​

退火偏差

随机更新的期望值的估计依赖于与期望分布相同的更新。优先级重播引入了偏差,因为它以一种不受控制的方式更改了这个分布,因此更改了估计将收敛到的解决方案(即使策略和状态分布是固定的)。我们可以通过使用重要采样(IS)权重来纠正这种偏差:

wi=(1N⋅1P(i))βw_{i}=\left(\frac{1}{N} \cdot \frac{1}{P(i)}\right)^{\beta}wi​=(N1​⋅P(i)1​)β

β\betaβ是退火参数,在实践中,我们将β\betaβ从其初始值β0\beta_0β0​到线性退火到1

伪代码

Prioritized Experience Replay