平均准则问题的即时差分学习算法
考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ)算法及R-学习算法的一种推广.
即时差分学习、强化学习、动态规划、Monte Carlo方法
26
TP2(自动化技术及设备)
国家自然科学基金
2004-03-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
533-536
即时差分学习、强化学习、动态规划、Monte Carlo方法
26
TP2(自动化技术及设备)
国家自然科学基金
2004-03-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
533-536
国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”
国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304
©天津万方数据有限公司 津ICP备20003920号-1
违法和不良信息举报电话:4000115888 举报邮箱:problem@wanfangdata.com.cn