10.3969/j.issn.1671-1815.2023.08.048
航空器智能引导机动决策奖励重塑方法
针对使用深度强化学习进行航空器智能引导研究中存在的飞行轨迹质量差、训练效率低等问题,对应用于机动决策生成的奖励重塑方法进行了研究.首先,构建了航空器引导机动决策生成的深度强化学习模型;其次,从指令连续性和相对姿态两个角度设计了奖励重塑函数,并证明了使用重塑函数前后的策略一致性;最后,在不同类型目的地场景中进行了仿真实验.仿真结果表明:奖励重塑方法对航空器飞行轨迹质量和智能体训练效率有明显的提升.使用本方法快速训练的智能体,可以准确、高效地生成机动决策,引导航空器完成任务.
航空器引导、机动决策、深度强化学习、奖励重塑
23
V249.1(航空仪表、航空设备、飞行控制与导航)
四川省科技计划;中央高校基本科研业务费基金项目;广西中国-东盟综合交通国际联合重点实验室资助课题
2023-05-11(万方平台首次上网日期,不代表论文的发表时间)
共9页
3535-3543