基于多重门限机制的异步深度强化学习
近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果.
深度学习、强化学习、异步深度强化学习、循环神经网络、多重门限机制、跳跃连接
42
TP18(自动化基础理论)
国家自然科学基金项目61272055,61303108,61373094,61472262,61502323,61502329,61772355;江苏省自然科学基金BK2012616;江苏省高校自然科学研究项目13KJB520020,16KJB520041;吉林大学符号计算与知识工程教育部重点实验室基金项目93K172014K04,93K172017K18;苏州市应用基础研究计划工业部分SYG201422,SYG201308
2019-06-11(万方平台首次上网日期,不代表论文的发表时间)
共18页
636-653