# DRRN

> [Deep reinforcement learning with a natural language action space](https://arxiv.org/abs/1511.04636)

本文介绍了一种新的强化学习体系结构，该体系结构采用深度神经网络，旨在处理基于文本的游戏中以自然语言为特征的状态和动作空间。这种体系结构被称为深度强化相关网络，它用独立的嵌入向量表示动作和状态空间，嵌入向量与交互功能相结合，在强化学习中接近Q函数。我们评估了DRRNon两个流行的文本游戏，展示了相对于其他深度问答学习架构的实验性能。解释动作描述的实验表明，该模型提取的是意义，而不是简单地记忆文本串。

## 方法

我们认为序贯决策提出了文本理解的问题。在每个步骤中，代理将接收描述状态的一串文本(即“状态文本”)和描述所有潜在关系的几串文本(即“动作文本”)。代理试图从状态和行为两个方面理解文本，衡量它们与当前上下文的相关性，以实现长期回报最大化，然后选择最佳行为。

![](https://2281160879-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LaNHyhKoX7GdL4Ytevq%2F-LcF7hbzM7qZW68LSWs8%2F-LcFI-ggOBbSEYoN3-kA%2Fimage.png?alt=media\&token=ebde6a0f-6eb9-4991-a17c-2e6466ff0663)

计算出每个动作的相关性后，可以得到策略：

![](https://2281160879-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LaNHyhKoX7GdL4Ytevq%2F-LcF7hbzM7qZW68LSWs8%2F-LcFIJYFP1cz28Tj-zHE%2Fimage.png?alt=media\&token=550bccd0-c6e8-4f0b-8589-59e5a0037849)

算法整体流程

![](https://2281160879-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LaNHyhKoX7GdL4Ytevq%2F-LcF7hbzM7qZW68LSWs8%2F-LcFIAN7JKpdLADX0moE%2Fimage.png?alt=media\&token=2cbf1c78-03ac-4910-9b93-6b9d4f253c21)
