10.3969/j.issn.1000-8152.2000.05.007
平均报酬模型的多步强化学习算法
讨论模型未知的平均报酬强化学习算法.通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习与截断即时差分TTD(λ)学习.现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例.仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高.
强化学习、即时差分学习、马氏决策过程、R学习
17
O231(控制论、信息论(数学理论))
中国科学院资助项目69674005
2005-11-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
660-664