这篇文章是发布在 arxiv 上的预印本文章,文章的标题是 Graph-based State Representation for Deep Reinforcement Learning.

文章的 Abstract 点出了一个普遍性的问题;强化学习模型训练的一个痛点是如何获取具有能够充分表达环境状态信息的状态输入向量。这篇文章的主要贡献是指出环境系统下的底层 MDP 过程(Markov Decision Process)可以被表示成一个图(Graph),因此我们可以利用其拓扑信息进行状态表示学习(State representation learning)。

具体而言,本文采用了图表示学习体系汇总的节点表示学习。作者选择了 4 类不同的表示学习算法进行对比,强化学习场景选择的是网格世界导航(Grid-world navigation)。作者发现基于所有四类图表示学习方法获取 Embedding 得到的效果都好于直接使用网格世界的矩阵表达的方式要好。在被比较的四类方法中,作者也发现图卷积方法要好于简单的随机游走法和图线性编码器(Graph linear autoencoders)。

文章的标题和截图