【重磅综述】用于机器人操作的深度强化学习- 知乎
【重磅综述】用于机器人操作的深度强化学习- 知乎
zhuanlan.zhihu.com
Related
Highlights
无模型方法专注于直接从与环境的交互中找出value function。此类中的算法严重依赖reward 来学习值函数。因此,具有学习reward的功能很重要。 此外,它们通常更易于实现和调整超参数。
【重磅综述】用于机器人操作的深度强化学习- 知乎
我们可以通过确定agent是否了解环境模型来划分可用的RL算法。 了解模型可以使agent提前知道状态转移概率矩阵和未来的reward
【重磅综述】用于机器人操作的深度强化学习- 知乎