期刊专题

10.11897/SP.J.1016.2019.02561

基于线性动态跳帧的深度双Q网络

引用
深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验重放是对均匀采样的一种改进,然而目前各个研究仅将样本的时间差分误差作为评价优先级的标准.针对这两个问题,该文提出一种基于线性动态跳帧和改进的优先级经验重放的深度双Q网络.该算法使得跳帧率成为一个可动态学习的参数,跳帧率随网络输出Q值的大小线性增长,Agent将根据当前状态和动作来动态地确定一个动作被重复执行的次数,并利用经验池中样本的每个动作的跳帧率和样本的时间差分误差共同决定样本的优先级.最后在Atari 2600游戏中进行实验,结果表明该算法相比于传统动态跳帧和优先级经验重放算法具有更优的效果.

深度强化学习、深度Q网络、动态跳帧、优先级经验重放

42

TP18(自动化基础理论)

国家自然科学基金项目61472262,61502329,61772355,61876119;江苏省自然科学基金面上项目BK20181432;吉林大学符号计算与知识工程教育部重点实验室基金项目93K172014K04,93K172017K18;苏州市重点产业技术创新前瞻性应用研究项目SYG201807

2019-12-04(万方平台首次上网日期,不代表论文的发表时间)

共13页

2561-2573

暂无封面信息
查看本期封面目录

计算机学报

0254-4164

11-1826/TP

42

2019,42(11)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn