10.3778/j.issn.1002-8331.2012-0082
拟双曲动量梯度的对抗深度强化学习研究
在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态.该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作.生成对抗样本常用方法是采用随机梯度下降方法.提出使用拟双曲动量梯度算法(QHM)来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法(SGD)在生成对抗样本上具有更高效率.同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性.实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高.
深度强化学习;对抗性攻击;拟双曲动量梯度;损失函数
57
TP181(自动化基础理论)
2021-12-22(万方平台首次上网日期,不代表论文的发表时间)
共10页
90-99