【重磅综述】用于机器人操作的深度强化学习- 知乎

RelatedHighlights

无模型方法专注于直接从与环境的交互中找出value function。此类中的算法严重依赖reward 来学习值函数。因此,具有学习reward的功能很重要。此外,它们通常更易于实现和调整超参数。

我们可以通过确定agent是否了解环境模型来划分可用的RL算法。了解模型可以使agent提前知道状态转移概率矩阵和未来的reward