Bootstrapped DQN

Deep Exploration via Bootstrapped DQN

方法

Bootstrapped Network

Bootstrapped DQN用bootstrap修改DQN以近似Q值的分布。 在每个周期开始时,Bootstrapped DQN从其近似后验中采样单个Q值函数。 然后,代理遵循在整个事件期间对该样本最优的策略。这是Thompson sampling启发式算法对RL的自然适应,允许时间上的扩展(或深度)探索。

伪代码

Last updated