10.11896/j.issn.1002-137X.2019.05.026
基于视觉注意力机制的异步优势行动者-评论家算法
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间.然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想.针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型.该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略.实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现.
异步深度强化学习、视觉注意力机制、行动者-评论家、异步优势行动者-评论家
46
TP181(自动化基础理论)
国家自然科学基金项目61772355,61702055,61303108,61373094,61472262,61502323,61502329;江苏省高等学校自然科学研究重大项目17KJA520004;吉林大学符号计算与知识工程教育部重点实验室资助项目93K172014K04,93K172017K18;苏州市应用基础研究计划工业部分SYG201422;苏州市民生科技项目SS201736
2019-06-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
169-174