deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • 方法
  • encoding
  • transformation
  • decoding

Was this helpful?

  1. 方法
  2. 街机游戏

Action-Conditional Video Prediction

PreviousActor-MimicNextSelf-Supervision

Last updated 6 years ago

Was this helpful?

方法

受基于视觉的强化学习问题(特别是最近基准 ALE 中的Atari游戏)的驱动,我们考虑未来图像帧依赖于控制变量或动作以及先前帧的时空预测问题。虽然雅达利游戏中的画面不是由自然场景构成的,但它在尺寸上是高维的,可以包含数十个物体,其中一个或多个物体被动作直接控制,许多其他物体受到间接影响,可能涉及物体的进入和分离,也可能涉及深度部分可观察性。我们提出并评估了两种基于卷积神经网络和递归神经网络的深层神经网络结构,包括编码层、动作条件变换层和解码层。实验结果表明,所提出的体系结构能够生成视觉上真实的帧,这些帧对于在某些游戏中控制大约100步动作条件预期也是有用的。据我们所知,本文是第一个对控制输入条件下的高维视频进行长期预测和评估的论文。

方法

我们架构的目标是学习一个函数: f:x1:t,at→xt+1f : \mathbf{x}_{1 : t}, \mathbf{a}_{t} \rightarrow \mathbf{x}_{t+1}f:x1:t​,at​→xt+1​,其中 xxx 是帧, aaa 是动作。上图即我们提出的两种帧预测网络架构。每个编码层由输入帧提取时空特征,动作条件变换层通过引入动作变量作为附加输入,将编码特征转换为高级特征空间中下一帧的预测,最后解码映射预测的高层特征转换为输出像素。

encoding

Feedforward encoding 将先前帧的固定历史作为输入,通过通道连接(图1a ),堆叠卷积层从连接的帧中直接提取时空特征。

htenc=CNN(xt−m+1:t)\mathbf{h}_{t}^{e n c}=\mathrm{CNN}\left(\mathbf{x}_{t-m+1 : t}\right)htenc​=CNN(xt−m+1:t​)

其中 xt−m+1:t∈R(m×c)×h×w\mathbf{x}_{t-m+1 : t} \in \mathbb{R}(m \times c) \times h \times wxt−m+1:t​∈R(m×c)×h×w

Recurrent encoding

[htenc,ct]=LSTM⁡(CNN(xt),ht−1enc,ct−1)\left[\mathbf{h}_{t}^{e n c}, \mathbf{c}_{t}\right]=\operatorname{LSTM}\left(\mathrm{CNN}\left(\mathrm{x}_{t}\right), \mathrm{h}_{t-1}^{e n c}, \mathbf{c}_{t-1}\right)[htenc​,ct​]=LSTM(CNN(xt​),ht−1enc​,ct−1​)

transformation

我们使用编码特征向量和控制变量之间的乘法交互

ht,idec=∑j,lWijlht,jencat,l+bih_{t, i}^{d e c}=\sum_{j, l} W_{i j l} h_{t, j}^{e n c} a_{t, l}+b_{i}ht,idec​=j,l∑​Wijl​ht,jenc​at,l​+bi​

使用因子分解近似

htdec=Wdec(Wenchtenc⊙Waat)+b\mathbf{h}_{t}^{d e c}=\mathbf{W}^{d e c}\left(\mathbf{W}^{e n c} \mathbf{h}_{t}^{e n c} \odot \mathbf{W}^{a} \mathbf{a}_{t}\right)+\mathbf{b}htdec​=Wdec(Wenchtenc​⊙Waat​)+b

decoding

x^t+1= Deconv (Reshape (hdec))\hat{\mathbf{x}}_{t+1}=\text { Deconv (Reshape }\left(\mathbf{h}^{d e c}\right) )x^t+1​= Deconv (Reshape (hdec))

训练方式使用1-step到n-step的课程学习

Action-Conditional Video Predictionusing Deep Networks in Atari Games