一种平衡探索和利用的优先经验回放方法
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R).该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样.此外,将E3 R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验.实验结果表明,相比传统随机采样和时序差分优先采样,E3 R可以获得更快的收敛速度和更高的累计回报.
强化学习、经验回放、优先采样、利用、探索、软演员-评论家算法
49
TP181(自动化基础理论)
全军装备预研项目31505550302
2022-05-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
179-185