10.3778/j.issn.1002-8331.2004-0062
优先状态估计的双深度Q网络
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整.为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向.结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数.
强化学习、状态估计、深度Q网络、双深度Q网络
57
TP181(自动化基础理论)
2021-04-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
78-83