deep-reinforcement-learning
  • 介绍
  • 前言
    • 神经网络
    • 研究平台
      • 街机游戏
      • 竞速游戏
      • 第一人称射击游戏
      • 开放世界游戏
      • 即时战略游戏
      • 团队体育游戏
      • 文字冒险游戏
      • OpenAI Gym & Universe
  • 方法
    • 街机游戏
      • DQN
      • DRQN
      • Gorila
      • Double DQN
      • Prioritized Experience Replay
      • Dueling DQN
      • Bootstrapped DQN
      • Multiagent DQN
      • Progressive Neural Networks
      • A3C
      • Retrace(λ)
      • ACER
      • ACKTR
      • TRPO
      • PPO
      • UNREAL
      • IMPALA
      • Distributional DQN
      • Noisy-Net
      • Rainbow
      • ES
      • NS-ES
      • Deep GA
      • Playing Atari with Six Neurons
      • UCTtoClassification
      • Policy Distillation
      • Actor-Mimic
      • Action-Conditional Video Prediction
      • Self-Supervision
      • HRA
    • 蒙特祖玛的复仇
      • Hierarchical-DQN
      • DQN-CTS
      • Pixel Recurrent Neural Networks
      • DQN-PixelCNN
      • Ape-X
      • DQfD
      • Ape-X DQfD
      • Natural Language Guided Reinforcement Learning
    • 竞速游戏
      • Direct Perception
      • DDPG
      • TD3
    • 第一人称射击游戏
      • SLAM-Augmented DQN
      • Direct Future Prediction
      • For The Win
    • 开放世界游戏
      • H-DRLN
      • Feedback Recurrent Memory Q-Network
      • Teacher-Student Curriculum Learning
    • 即时战略游戏
      • Puppet Search
      • Combined Strategic and Tacticals
      • Zero Order
      • IQL
      • COMA
      • BiC-Net
      • Macro-action SL
      • Macro-action PPO
      • On Reinforcement Learning for Full-length Game of StarCraft
      • AlphaStar
    • 团队体育游戏
      • DDPG + Inverting Gradients
      • DDPG + Mixing policy targets
      • Object-centric prediction
    • 文字冒险游戏
      • LSTM-DQN
      • DRRN
      • Affordance Based Action Selection
      • Golovin
      • AE-DQN
    • 开放的挑战
      • 游戏通用性
      • 稀疏、延迟、欺骗性的回报
      • 多智能体
      • 终身适应
      • 像人类一样玩游戏
      • 可调节的性能等级
      • 处理巨大的状态空间
      • 工业界应用
      • 游戏开发的交互式工具
      • 创造新的游戏
      • 学习游戏的模型
      • 计算资源
  • 附录
    • Distributional RL
      • QR-DQN
    • Policy Gradient
      • Off-Policy Actor-Critic
      • Generalized Advantage Estimation
      • Soft Actor-Critic
      • PPO-Penalty
    • Model-Based RL
      • I2A
      • MBMF
      • MBVE
      • World Models
    • Imitation Learning and Inverse Reinforcement Learning
      • GAIL
    • Transfer and Multitask RL
      • HER
Powered by GitBook
On this page
  • Arcade Learning Environment
  • Retro Learning Environment
  • General Video Game AI framework

Was this helpful?

  1. 前言
  2. 研究平台

街机游戏

Previous研究平台Next竞速游戏

Last updated 6 years ago

Was this helpful?

Arcade Learning Environment

ALE为数百个Atari 2600游戏环境提供了一个界面,每个环境都是不同的,有趣的,并且设计成对人类玩家的挑战。 ALE为强化学习,模型学习,基于模型的规划,模仿学习,转移学习和内在动机提出了重大的研究挑战。最重要的是,它提供了一个严格的测试平台,和这些问题的评估比较方法。我们使用完善的AI技术(包括强化学习和规划)设计的独立代理和基准测试来说明ALE的前景。在此过程中,我们还提出了ALE实现的评估方法,报告了超过55种不同游戏的实证结果。所有软件(包括基准代理)都是公开的。

Retro Learning Environment

经典街机游戏的另一个平台是RLE,它目前包含了为超级任天堂娱乐系统(SNES)发布的几款游戏。这些游戏都有3D图形,控制器允许720多种动作组合。因此SNES游戏比Atari 2600游戏更加复杂和现实,但RLE却没有ALE那么受欢迎。

RLE可以在超级任天堂娱乐系统(SNES),Sega Genesis和其他几款游戏机上运行游戏。该环境是可扩展的,允许添加更多视频游戏和控制台到环境中,同时保持与ALE相同的界面。而且,RLE与Python和Torch兼容。 SNES游戏由于其更高的复杂性和多功能性而对当前算法构成了重大挑战。

General Video Game AI framework

通用电子游戏AI (GVGAI)竞赛及其相关软件框架为大量使用特定领域描述语言编写的游戏提供了一种对AI算法进行基准测试的方法。尽管人们对这项竞赛很感兴趣,但迄今为止,它一直专注于在线规划,提供一种允许使用蒙特卡洛树搜索等算法的正向模型。

在本文中,我们描述了如何将GVGAI接口到OpenAI Gym环境,这是一种广泛使用的连接代理到强学习问题的方法。使用这个接口,我们描述了几种深度强化学习算法的广泛应用在许多GVGAI游戏中的表现。我们进一步分析结果,以提供第一个指标,描述这些游戏的相对难度,包括ALE中的游戏。

Playing SNES in the Retro Learning Environment
Deep Reinforcement Learning for General Video Game AI
The Arcade Learning Environment: An Evaluation Platform for General Agents