期刊专题

10.11896/jsjkx.210300084

一种平衡探索和利用的优先经验回放方法

引用
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R).该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样.此外,将E3 R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验.实验结果表明,相比传统随机采样和时序差分优先采样,E3 R可以获得更快的收敛速度和更高的累计回报.

强化学习、经验回放、优先采样、利用、探索、软演员-评论家算法

49

TP181(自动化基础理论)

全军装备预研项目31505550302

2022-05-11(万方平台首次上网日期,不代表论文的发表时间)

共7页

179-185

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

49

2022,49(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn