DRRN

Deep reinforcement learning with a natural language action space

本文介绍了一种新的强化学习体系结构，该体系结构采用深度神经网络，旨在处理基于文本的游戏中以自然语言为特征的状态和动作空间。这种体系结构被称为深度强化相关网络，它用独立的嵌入向量表示动作和状态空间，嵌入向量与交互功能相结合，在强化学习中接近Q函数。我们评估了DRRNon两个流行的文本游戏，展示了相对于其他深度问答学习架构的实验性能。解释动作描述的实验表明，该模型提取的是意义，而不是简单地记忆文本串。

方法

我们认为序贯决策提出了文本理解的问题。在每个步骤中，代理将接收描述状态的一串文本(即“状态文本”)和描述所有潜在关系的几串文本(即“动作文本”)。代理试图从状态和行为两个方面理解文本，衡量它们与当前上下文的相关性，以实现长期回报最大化，然后选择最佳行为。

计算出每个动作的相关性后，可以得到策略：

算法整体流程

PreviousLSTM-DQN NextAffordance Based Action Selection

Last updated 6 years ago

Was this helpful?