处理巨大的状态空间

虽然平均分支因子在国际象棋中徘徊在30左右而在Go上徘徊在300左右,但像星际争霸这样的游戏有一个更大的数量级的分支因子。最近在进化规划方面取得的进展已经允许在具有更大分支因子的游戏中进行实时和长期规划,我们如何将Deep RL扩展到如此复杂的水平是一个重要的开放挑战。在这些游戏中深入学习以增强搜索算法的学习启发也是一个很有前景的方向。