deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • Dataset
  • Network Architecture
  • Training
  • Applying the Network to a StarCraft Bot
  • 实验

Was this helpful?

  1. 方法
  2. 即时战略游戏

Macro-action SL

PreviousBiC-NetNextMacro-action PPO

Last updated 5 years ago

Was this helpful?

实时战略游戏星际争霸已被证明是一个充满挑战的人工智能技术环境,因此,目前最先进的解决方案包括许多手工制作的模块。在本文中,我们将展示如何使用深度学习直接从游戏回放中学习星际争霸中的宏观管理决策。神经网络训练了789,571个状态 - 动作对,从2,005个高手玩家的重放中提取,在预测下一个构建动作时达到54.6%和22.9%的前1和前3错误率。通过将训练有素的网络整合到开源星际争霸机器人——人工智能机器人(UAlbertaBot)中,该系统可以显著优于游戏内置的人族机器人,并以固定的冲刺策略与人工智能机器人(UAlbertaBot)进行竞争。据我们所知,这是第一次直接从星际争霸的重播中学习宏观管理任务。虽然最好的手工策略仍是最先进的,但深度网络方法能够表达多种不同的策略,从而通过深度强化学习进一步提高网络性能,这是未来研究的一个很有前途的途径。最终,这种方法可能会导致强大的星际争霸机器人对硬编码策略的依赖性降低。

方法

Dataset

重放文件是二进制格式,需要预处理才能提取知识。本文中使用的数据集是从现有数据集中提取的。辛纳伊夫等人。通过清理三个星际争霸社区网站GosuGamers、ICCupand TeamLiquid,收集了7649次回放,这些网站主要是为包括专业人士[27]在内的高技能玩家提供的。罗伯逊等人从存储库中提取了大量信息并存储在一个数据库中。[22]。这个数据库包含游戏中每24帧的状态变化,包括单位属性。我们的数据集是从这个数据库中提取的,预处理步骤的另一个视图如图所示:

Network Architecture

Training

789,571个状态-动作对的数据集被分成631,657对(80%)的训练集和157,914对(20%)的测试集。训练集专门用于训练网络,而测试集用于评估训练网络。状态-动作对来自2005个不同的神族和人族游戏,在分割数据之前不会被打乱,以避免来自同一个游戏的动作同时出现在训练和测试集中

Applying the Network to a StarCraft Bot

学习预测人类玩游戏中的行为与学习游戏的行为非常相似。 然而,这种类型的模仿学习确实有其局限性,因为代理人不会学会采取最佳行动,而是采取最可能的行动(如果人类正在玩)。 然而,将训练有素的网络应用为现有机器人的宏观管理模块可能是朝着更先进的方法迈出的重要一步。

在本文中,我们构建了UAlbertaBot,它有一个生产管理器,管理机器人必须按顺序生成的构建队列。 通常使用基于目标的搜索的生产经理被修改为使用在重放上训练的网络。 UAlbertaBot的制作经理也被扩展为网络客户端; 当要求下一个构建时,请求被转发到网络服务器以及当前游戏状态的描述,该网络服务器将游戏状态馈送到神经网络,然后返回到模块的构建预测。 由于网络只接受过Protoss与Terran游戏的训练,因此只能在这场比赛中进行测试。

实验

可以看到经过精心手工策略设计的UAlbertaBot仍然是效果最好的,但是从回放中学习仍为星际争霸智能提供了一个新方向。

Learning Macromanagement in StarCraft from Replays using Deep Learning