时间差分学习

来源：56doc.com 资料编号：5D25051 资料等级：★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D25051

资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密保惠帮助

资料介绍

时间差分学习(中文8300字,英文PDF)
如果必须将一个观点作为强化学习的核心和新概念，那么它无疑就是时间差分(TD)学习。TD学习是蒙特卡罗思想和规划的结合。与蒙特卡罗方法一样，TD方法可以直接从原始经验中学习，而无需建立环境动力学模型。与DP方法一样，TD方法部分地更新了估计值。根据其他了解到的估计，无需等待最终结果(他们自举)。在强化学习理论中，TD、DP和蒙特卡罗方法之间的关系是一个反复出现的主题。这一章是我们对它的探索的开始。在我们完成之前，我们将看到这些想法和方法相互融合，可以在许多方面结合在一起。尤其是在第一章第七章介绍了n步算法，它提供了从TD到蒙特卡罗方法之间的桥梁，在第12章中，我们介绍了TD(λ)算法，它将它们无缝地结合在一起。