期刊专题

10.7641/CTA.2016.60512

概率近似正确的强化学习算法解决连续状态空间控制问题

引用
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态-动作-奖励-状态-动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.

强化学习、概率近似正确、kd树、双连杆机械臂

33

TP273(自动化技术及设备)

国家自然科学基金项目61273136,61573353,61533017,61603382;复杂系统管理与控制国家重点实验室优秀人才基金项目资助.Supported by National Natural Science Foundation of China61273136,61573353,61533017,61603382;Early Career Development Award of SKLMCCS

2017-05-08(万方平台首次上网日期,不代表论文的发表时间)

共11页

1603-1613

暂无封面信息
查看本期封面目录

控制理论与应用

1000-8152

44-1240/TP

33

2016,33(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn