期刊专题

10.3969/j.issn.1674-3644.2020.02.011

采用双经验回放池的噪声流双延迟深度确定性策略梯度算法

引用
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法.该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题.在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快.

深度确定性策略梯度、TD3算法、深度强化学习、噪声流、多步截断双Q学习、双经验回放池

43

TP18;TP301.6(自动化基础理论)

国家自然科学基金资助项目;武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目

2020-05-11(万方平台首次上网日期,不代表论文的发表时间)

共8页

147-154

暂无封面信息
查看本期封面目录

武汉科技大学学报(自然科学版)

1674-3644

42-1608/N

43

2020,43(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn