deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • TorchCraft
  • SC2LE
  • ELF

Was this helpful?

  1. 前言
  2. 研究平台

即时战略游戏

Previous开放世界游戏Next团队体育游戏

Last updated 6 years ago

Was this helpful?

TorchCraft

我们展示了TorchCraft,这是一个能够实现对星际争霸:母巢之战等实时战略(RTS)游戏进行深度学习研究的库,通过机器学习框架更容易控制这些游戏,比如Torch。

SC2LE

本文介绍了基于星际争霸2游戏的强化学习环境SC2LE (StarCraft II Learning Environment)。这一领域对强化学习提出了一个新的巨大挑战,它代表了一个比以往大多数工作中所考虑的更困难的一类问题。这是一个多智能体、多参与者交互的问题;局部观测的地图信息不完整;动作空间大,涉及数百个单元的选择和控制;它的状态空间很大,必须仅从原始输入特征面观察;延期的信用分配需要数千步的长期策略。我们描述了《星际争霸2》领域的观察、行动和奖励规范,并提供了一个基于python的开放源码界面来与游戏引擎进行通信。除了主游戏地图,我们还提供了一套专注于《星际争霸2》游戏玩法中不同元素的迷你游戏。对于主游戏地图,我们还提供了一个来自人类专家玩家的游戏回放数据集。我们给出了训练神经网络预测游戏结果和玩家行为的初始基线结果。最后,我们给出了应用于星际争霸2领域的典型深度强化学习代理的初始基线结果。在迷你游戏中,这些代理学习如何达到与新手相当的游戏水平。然而,当在主游戏上进行训练时,这些代理无法取得显著的进展。因此,SC2LE为探索深度强化学习算法和体系结构提供了一个具有挑战性的新环境。

ELF

在本文中,我们提出了ELF,一个广泛,轻量和灵活的平台,用于基础强化学习研究。 使用ELF,我们实现了一个高度可定制的实时战略(RTS)引擎,具有三种游戏环境(Mini-RTS,夺旗和塔防)。 Mini-RTS作为星际争霸的缩影版,捕捉关键的游戏动态,并在笔记本电脑上以每核心40K帧速(FPS)运行。 结合现代强化学习方法,该系统可以在一天内通过6个CPU和1个GPU训练一个完整的游戏机器人对抗内置AI端到端。 此外,我们的平台在环境代理通信拓扑,RL方法选择,游戏参数变化方面具有灵活性,并且可以托管现有的基于C / C ++的游戏环境 像ALE一样。使用ELF,我们彻底探索训练参数,并显示在Mini-RTS的完整游戏中,具有Leaky ReLU 和批量标准化以及长视野训练和渐进式课程的网络70%的时间超过基于规则的内置AI 。 其他两场比赛也取得了很好的表现。 在游戏回放中,我们展示了我们的代理商学习有趣的策略。 ELF及其RL平台的开放源代码在:

StarCraft II: A New Challenge for Reinforcement Learning
ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games
https://github.com/facebookresearch/ELF。
TorchCraft: a Library for Machine Learning Research on Real-Time Strategy Games