deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • Model
  • ARCHITECTURE
  • 实验
  • 固定场景
  • 与目标无关的训练

Was this helpful?

  1. 方法
  2. 第一人称射击游戏

Direct Future Prediction

PreviousSLAM-Augmented DQNNextFor The Win

Last updated 5 years ago

Was this helpful?

我们提出了一种沉浸式环境中感觉运动控制的方法。我们的方法利用高维感应流和低维测量流。这些流的同时结构提供了丰富的监控信号,可以通过与环境相互作用来训练感觉运动控制模型。该模型使用监督学习技术进行培训,但没有外部监督。它学会在一个复杂的三维环境中,根据原始的感觉输入采取行动。所提出的公式使得学习在训练时没有固定的目标,而在测试时追求动态变化的目标。我们基于经典的第一人称游戏Doom在三维模拟中进行了大量实验。结果表明,所提出的方法优于复杂的先验公式,特别是在具有挑战性的任务上。他的结果还表明,训练模型成功地在环境和目标中推广。使用这种方法训练的模型赢得了Visual Doom AI Competition 中的 Full Deathmatch track,并且是在以前从未见过的环境中。

方法

Model

在本方法中观察状态可以分为两个变量: ot=⟨st,mt⟩\mathbf{o}_{t}=\left\langle\mathbf{s}_{t}, \mathbf{m}_{t}\right\rangleot​=⟨st​,mt​⟩ ,其中 sts_tst​ 是原始的图像输入, mtm_tmt​ 是一些测量指标,如子弹数、血量。 不同的未来状态与当前测量的差分可以表示为: f=⟨mt+τ1−mt,…,mt+τn−mt⟩\mathbf{f}=\left\langle\mathbf{m}_{t+\tau_{1}}-\mathbf{m}_{t}, \dots, \mathbf{m}_{t+\tau_{n}}-\mathbf{m}_{t}\right\ranglef=⟨mt+τ1​​−mt​,…,mt+τn​​−mt​⟩ 。设任何目标 ggg可以用函数 u(f;g)u(\mathbf{f} ; \mathbf{g})u(f;g) 表达:

u(f;g)=g⊤fu(\mathbf{f} ; \mathbf{g})=\mathbf{g}^{\top} \mathbf{f}u(f;g)=g⊤f

目标即不同测量指标的权重,如生命值权重为1,其它为0.5。

为了预测未来的测量值,我们使用一个函数近似:

pta=F(ot,a,g;θ)\mathbf{p}_{t}^{a}=F\left(\mathbf{o}_{t}, a, \mathbf{g} ; \boldsymbol{\theta}\right)pta​=F(ot​,a,g;θ)

然后选择函数 uuu 最大的动作执行:

at=arg⁡max⁡a∈Ag⊤F(ot,a,g;θ)a_{t}=\underset{a \in \mathcal{A}}{\arg \max } \mathbf{g}^{\top} F\left(\mathbf{o}_{t}, a, \mathbf{g} ; \boldsymbol{\theta}\right)at​=a∈Aargmax​g⊤F(ot​,a,g;θ)

很显然,这里的测量值就类似于标准强化学习里面的回报

Training

目标函数被定义为:

L(θ)=∑i=1N∥F(oi,ai,gi;θ)−fi∥2\mathcal{L}(\boldsymbol{\theta})=\sum_{i=1}^{N}\left\|F\left(\mathbf{o}_{i}, a_{i}, \mathbf{g}_{i} ; \boldsymbol{\theta}\right)-\mathbf{f}_{i}\right\|^{2}L(θ)=i=1∑N​∥F(oi​,ai​,gi​;θ)−fi​∥2

我们评估了两种训练方法:

  • 单一目标:目标向量在整个训练过程中是固定的

  • 随机目标:每集的目标向量是随机生成的

ARCHITECTURE

这里使用了类似于Dueling的网络结构,首先通过卷积网络、全连接网络得到 s,m,gs, m, gs,m,g 。然后预测一个 EEE

作为未来测量值的期望, AAA 为动作优势值,并且归一化成均值0。这样做的好处是让网络更容易学习预测,可以参考Dueling DQN。

Ai‾(j)=Ai(j)−1w∑k=1wAk(j)\overline{A^{i}}(\mathbf{j})=A^{i}(\mathbf{j})-\frac{1}{w} \sum_{k=1}^{w} A^{k}(\mathbf{j})Ai(j)=Ai(j)−w1​k=1∑w​Ak(j)
p=⟨pa1,…,paw⟩=⟨A1‾(j)+E(j),…,Aw‾(j)+E(j)⟩\mathbf{p}=\left\langle\mathbf{p}^{a_{1}}, \ldots, \mathbf{p}^{a_{w}}\right\rangle=\left\langle\overline{A^{1}}(\mathbf{j})+E(\mathbf{j}), \ldots, \overline{A^{w}}(\mathbf{j})+E(\mathbf{j})\right\ranglep=⟨pa1​,…,paw​⟩=⟨A1(j)+E(j),…,Aw(j)+E(j)⟩

实验

固定场景

与目标无关的训练

LEARNING TOACT BYPREDICTING THEFUTURE