基于平均神经网络参数的DQN算法
在深度强化学习领域,如何有效地探索环境是一个难题.深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差.这种探索策略不够高效,不能有效解决深度探索问题.针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN).该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率.实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%.
深度强化学习、深度Q网络、神经网络参数、深度探索
48
TP181(自动化基础理论)
教育部联合基金6141A02011607
2021-04-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
223-228