deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page

Was this helpful?

  1. 方法
  2. 街机游戏

Noisy-Net

PreviousDistributional DQNNextRainbow

Last updated 5 years ago

Was this helpful?

我们介绍了一种深度强化学习代理NoisyNet,该代理的权重中添加了参数噪声,并表明该代理策略的诱导随机性可以用来帮助有效的探索。噪声的参数通过梯度下降以及剩余的网络权重来学习。NoisyNet易于实现,并且几乎不增加计算开销。我们发现,用NoisyNet代替A3C、DQN和Dueling代理的传统探索试探法(分别用熵奖励和 ϵ\epsilonϵ -greedy ),在许多Atari游戏中,会获得更高的分数,在某些情况下,会将代理从低于人类游戏分数提升到超过人类的水平。

方法

噪声网络是一种神经网络,其权值和偏差受到噪声参数函数的扰动。这些参数是用梯度下降法调整的。设 y=fθ(x)y=f_{\theta}(x)y=fθ​(x) 是由带噪声的向量 θ\thetaθ 参数化的神经网络,定义为 θ=defμ+Σ⊙ε\theta \stackrel{\mathrm{def}}{=} \mu+\Sigma \odot \varepsilonθ=defμ+Σ⊙ε ,其中 ζ=def(μ,Σ)\zeta \stackrel{\mathrm{def}}{=}(\mu, \Sigma)ζ=def(μ,Σ) 是可学习的参数。

设线性函数 y=wx+by=w x+by=wx+b ,则对应的噪声版本

y=def(μw+σw⊙εw)x+μb+σb⊙εby \stackrel{\mathrm{def}}{=}\left(\mu^{w}+\sigma^{w} \odot \varepsilon^{w}\right) x+\mu^{b}+\sigma^{b} \odot \varepsilon^{b}y=def(μw+σw⊙εw)x+μb+σb⊙εb

现在我们转向噪声网络中线性层噪声分布的显式实例。我们探讨了两种选择:独立高斯噪声,它使用独立的高斯噪声项每权重,以及因子分解高斯噪声,它使用独立噪声每输出,而另一个独立噪声每输入。在我们的算法中,使用因子分解高斯噪声的主要原因是减少随机数生成的计算时间。

其中因子分解噪声即:

εi,jw=f(εi)f(εj)εjb=f(εj)\begin{aligned} \varepsilon_{i, j}^{w} &=f\left(\varepsilon_{i}\right) f\left(\varepsilon_{j}\right) \\ \varepsilon_{j}^{b} &=f\left(\varepsilon_{j}\right) \end{aligned}εi,jw​εjb​​=f(εi​)f(εj​)=f(εj​)​

然后把带噪声的网络应用于Deep Q-Network或者A3C中的critic即可

Noisy Networks for Exploration