时间差分学习
来源:56doc.com 资料编号:5D25051 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D25051
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密 保 惠 帮助
资料介绍
时间差分学习(中文8300字,英文PDF)
如果必须将一个观点作为强化学习的核心和新概念,那么它无疑就是时间差分(TD)学习。TD学习是蒙特卡罗思想和规划的结合。与蒙特卡罗方法一样,TD方法可以直接从原始经验中学习,而无需建立环境动力学模型。与DP方法一样,TD方法部分地更新了估计值。 根据其他了解到的估计,无需等待最终结果(他们自举)。在强化学习理论中,TD、DP和蒙特卡罗方法之间的关系是一个反复出现的主题。 这一章是我们对它的探索的开始。在我们完成之前,我们将看到这些想法和方法相互融合,可以在许多方面结合在一起。尤其是在第一章 第七章介绍了n步算法,它提供了从TD到蒙特卡罗方法之间的桥梁,在第12章中,我们介绍了TD(λ)算法,它将它们无缝地结合在一起。
|