deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 遗传算法
  • 新颖搜索
  • 为什么GA比ES快?
  • 群体编码方法
  • 实验

Was this helpful?

  1. 方法
  2. 街机游戏

Deep GA

PreviousNS-ESNextPlaying Atari with Six Neurons

Last updated 6 years ago

Was this helpful?

深度人工神经网络(DNN)通过基于梯度的学习算法(即反向传播)进行常规训练。 进化策略(ES)可以与基于反向基础的算法(如Q-learning和策略梯度)相媲美,以解决深层强化学习(RL)问题。 然而,ES可以被认为是基于梯度的算法,因为它通过类似于梯度的有限差分近似的操作来形成随机梯度下降。 这提出了一个问题,即基于非梯度的进化算法是否可以在DNN尺度上发挥作用。在这里我们可以说明:我们使用简单的,无梯度,基于种群的遗传算法(GA)来演化DNN的权重,并且它可以解决硬的深RL问题,包括Atariand人形运动。 Deep GA成功地发展了具有超过四百万个自由参数的网络,这是最大的神经网络随着传统的进化算法而发展的。这些结果(1)扩展了我们对GA可以运作的规模的认识,(2)有趣的是,在某些情况下,跟随梯度不是优化性能的最佳选择,(3)立即可用于多种神经进化技术改进性能。我们通过展示将DNN与新颖性搜索结合,这种模式鼓励在具有欺骗性或稀疏回报函数的任务上进行探索,可以解决回报最大化算法(例如DQN、A3C、ES和遗传算法)的失败。此外,深度GA比ES、A3C和DQN更快(在一个桌面上训练Atari 4小时,或者在720个内核上训练Atari 1小时),并且支持最先进的、高达10,000倍的紧凑编码技术。

方法

本文使用的遗传算法是非梯度的,仅使用突变和筛选获取更强的个体,这和前面的ES算法是截然不同的。

遗传算法

新颖搜索

为什么GA比ES快?

由于以下两个主要原因,GA比ES更快:(1)对于每次生成,ES必须计算如何更新其神经网络参数向量 θθθ 。 它是通过加权平均值来实现的,这些平均值是通过它们的大量伪后代(随机 θθθ 扰动)的加权平均值。 这种平均操作对于大型神经网络和大量伪后代(后者需要健康的优化)来说是缓慢的,并且对于Deep GA来说不是必需的。 (2)ES要求虚拟批量规范化以在伪后代之间生成不同的策略,这对于准确的有限差分近似是必需的。 虚拟批次规范化需要参考批次的额外前向传递 - 在训练开始时选择的随机观察集 - 计算层规范化统计数据,然后以与批量标准化相同的方式使用。 我们发现随机GA参数扰动产生了足够多样的策略而没有虚拟批量归一化,从而避免了这些额外的前向传递通过网络。

群体编码方法

实验

Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning