deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • 方法
  • StartCraft Combat as Stochastic Games
  • Local, Individual Rewards
  • Communication w/ Bidirectional Backpropagation
  • 实验

Was this helpful?

  1. 方法
  2. 即时战略游戏

BiC-Net

PreviousCOMANextMacro-action SL

Last updated 6 years ago

Was this helpful?

许多人工智能应用通常需要多个智能代理协同工作。智能体内部交流和协调的有效学习是实现通用人工智能不可或缺的一步。在本文中,我们以星际争霸战斗游戏为例,其任务是协调多个代理作为一个团队来打败他们的敌人。为了维护一个可扩展但有效的通信协议,我们引入了一个多智能体双向协调网络(BiCNet['bIknet]),它具有行为者-批评者表述的矢量扩展。我们表明,BiCNet可以处理不同类型的战斗,双方都有任意数量的AI代理。我们的分析表明,没有任何监督,如人类演示或标记数据,BiCNet可以学习各种类型的高级协调策略,这些策略已被经验丰富的游戏玩家普遍使用。在我们的实验中,我们根据不同场景下的多个基线评估我们的方法;它显示了最先进的性能,并具有大规模实际应用的潜力。

方法

StartCraft Combat as Stochastic Games

回报函数可以定义为我方平均血量和对方平均血量的差

于是求解Q函数可以定义为一个极大极小问题

为了简化问题,我们只考虑极大

Local, Individual Rewards

只考虑整体的回报显然无法有效分配信用,所以考虑每个单位自己的回报,即与该单位接触的top-k个单位的血量之差

Communication w/ Bidirectional Backpropagation

我们需要一种机制来实现多智能体的通信/协同训练,于是有了Bic-Net这种网络结构:

策略网络与本地视图一起接受共享观察,返回单个代理的操作。 由于双向复现结构不仅可以作为通信渠道,还可以作为本地存储器,每个代理人都能够维持自己的内部状态,并与合作者共享信息。

对于BiCNet的学习,直观地说,我们可以考虑通过展开网络长度N(受控代理的数量)然后通过时间应用反向传播来计算后向梯度(BPTT)。

梯度同时传递给每个 QiQ_{i}Qi​ 函数和策略函数。它们是从所有代理和他们的动作中聚集起来的。换句话说,首先传播来自所有代理商奖励的梯度以影响每个代理商的活动,并且得到的梯度进一步传播回更新参数。

令 Ji(θ)=Es∼ρaθT[ri(s,aθ(s))]J_{i}(\theta)=\mathbb{E}_{\mathbf{s} \sim \rho_{a_{\theta}}^{T}}\left[r_{i}\left(\mathbf{s}, \mathbf{a}_{\theta}(\mathbf{s})\right)\right]Ji​(θ)=Es∼ρaθ​T​​[ri​(s,aθ​(s))] 为每个单位的最大化目标,其中 ρaoT(s)\rho_{\mathbf{a}_{o}}^{\mathcal{T}}(\mathbf{s})ρao​T​(s) 对应于策略的折扣状态分布,如 ρaθT(s):=∫S∑t=1∞λι−1p1(s)1(s′=Taθ,bϕ1(s))ds\rho_{\mathbf{a}_{\theta}}^{\mathcal{T}}(\mathbf{s}) :=\int_{\mathcal{S}} \sum_{t=1}^{\infty} \lambda^{\iota-1} p_{1}(\mathbf{s}) \mathbb{1}\left(\mathbf{s}^{\prime}=\mathcal{T}_{\mathbf{a}_{\theta}, \mathbf{b}_{\phi}}^{1}(\mathbf{s})\right) \mathrm{d} \mathbf{s}ρaθ​T​(s):=∫S​∑t=1∞​λι−1p1​(s)1(s′=Taθ​,bϕ​1​(s))ds ,它也可以作为遍历MDP的平稳分布。所以整体的目标函数为:

Theorem 1 (Multiagent Deterministic PG Theorem)

接下来,我们将一个多智能体引入确定性策略梯度定理:

为了确保充分的探索,我们应用Ornstein-Uhlenbeck过程在每个时间步骤中增加行动网络输出的噪声。在这里,我们进一步考虑了off-policy确定性的行动者-批评者算法(Lillicrap等人)来降低方差。在训练Critic时,我们使用平方损失的总和并对参数化的CriticQξ(s,a)Q^{\xi}(\mathbf{s}, \mathbf{a})Qξ(s,a)具有以下梯度 。

BiCNet与贪婪的MDP明显不同,代理的依赖性嵌入在潜在的层面,而不是直接在行动中。

实验

Multiagent Bidirectionally-Coordinated Network