基于自适应调节策略熵的元强化学习算法
传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务.元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法.基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略.然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的.针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy,APE)算法.该算法首先通过限制策略的熵,将原本的目标函数优化问题转换为受限优化问题,然后将受限优化问题中的对偶变量作为温度参数,通过拉格朗日对偶法求解得到其更新公式.根据得到的更新公式,温度参数将在每一轮元训练结束之后进行自适应调节.实验数据表明,所提算法在Ant-Fwd-Back和Walker-2D上的平均得分提高了200,元训练效率提升了82%;在Humanoid-Di-rec-2D上的策略收敛所需的训练步数为23万,收敛速度提升了127%.实验结果表明,所提算法具有更高的元训练效率和更好的稳定性.
元学习、强化学习、最大熵
48
TP181(自动化基础理论)
基于云计算的苏州智能公交系统数据挖掘及应用研究;江苏高校优势学科建设工程项目
2021-06-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
168-174