多步积累奖励的双重时序Q网络算法
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN,DDQN使用时序网络后,收敛速度分别提升了21.9%,26.8%;本文算法在Carla仿真平台典型的Town01,Town02场景中的控制得分比DDQN,TD3算法分别高了36.1%,24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.
深度强化学习、无人车、多步积累奖励、时序网络、数据利用率
39
浙江省自然科学基金;国家自然科学基金;汽车仿真与控制国家重点实验室开放基金
2022-04-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
222-230