期刊专题

10.11896/j.issn.1002-137X.2019.05.026

基于视觉注意力机制的异步优势行动者-评论家算法

引用
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间.然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想.针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型.该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略.实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现.

异步深度强化学习、视觉注意力机制、行动者-评论家、异步优势行动者-评论家

46

TP181(自动化基础理论)

国家自然科学基金项目61772355,61702055,61303108,61373094,61472262,61502323,61502329;江苏省高等学校自然科学研究重大项目17KJA520004;吉林大学符号计算与知识工程教育部重点实验室资助项目93K172014K04,93K172017K18;苏州市应用基础研究计划工业部分SYG201422;苏州市民生科技项目SS201736

2019-06-05(万方平台首次上网日期,不代表论文的发表时间)

共6页

169-174

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

46

2019,46(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn