deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • ViZDoom
  • DeepMind Lab

Was this helpful?

  1. 前言
  2. 研究平台

第一人称射击游戏

Previous竞速游戏Next开放世界游戏

Last updated 6 years ago

Was this helpful?

最近,在第一人称射击游戏(FPS)中出现了更高级的视觉强化学习代理游戏环境。与ALE基准测试中的经典街机游戏不同,fps具有部分可观察状态的3D图形,因此是一种更现实的环境。通常情况下,视点是玩家控制角色的视点,尽管一些在FPS类别中广泛存在的游戏采用了过肩视点。FPS游戏的设计部分挑战在于简单快速的感知和反应,尤其是发现敌人并迅速瞄准他们。但也有其他认知挑战,包括在复杂的三维环境中定位和移动,预测多个对手的行动和位置,以及在一些游戏模式中基于团队的协作。如果使用视觉输入,则从像素中提取相关信息是一个挑战。

ViZDoom

深度神经网络的最新进展已经导致有效的基于视觉的强化学习方法,其已被用于从像素数据获得Atari 2600游戏中的人级控制器。然而,Atari 2600游戏并不像真实世界的任务,因为它们涉及非逼真的2D环境和第三人称视角。在这里,我们提出了一个新的试验台平台,用于从原始视觉信息中加强学习研究,在半现实3D世界中采用第一人称视角。这款名为ViZDoom的软件基于经典的第一人称射击游戏Doom。它允许开发使用屏幕缓冲区玩游戏的机器人。 ViZDoom通过方便的用户场景机制轻量级,快速且高度可定制。在实验部分,我们通过尝试学习两种情况的机器人来测试环境:基本的移动和射击任务以及更复杂的迷宫导航问题。使用具有Q学习和经验重放的卷积深度神经网络,对于这两种情况,我们能够训练有能力的机器人,这些机器人表现出类似人的行为。结果证实了ViZDoom作为AI研究平台的实用性,并暗示在3D逼真的第一人称视角环境中进行视觉强化学习是可行的。

DeepMind Lab

DeepMind Lab是第一人称3D游戏平台,专为研究和开发通用人工智能和机器学习系统而设计。 DeepMind Lab可用于研究自主人工代理如何在大型,部分观察和视觉多样化的世界中学习复杂的任务。 DeepMind Lab具有简单灵活的API,可以创建任务设计和新颖的AI设计,以便进行探索和快速迭代。 它由快速且广泛认可的游戏引擎提供支持,并为研究社区的有效使用量身定制。

DeepMind Lab
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning