期刊专题

10.11896/jsjkx.220700010

基于轨迹感知的稀疏奖励探索方法

引用
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果.在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈.异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题.针对A3 C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C).该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境.为了验证ETP-A3 C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升.

人工智能、知识迁移、深度强化学习、A3 C算法、探索-利用问题

50

TP181(自动化基础理论)

国家自然科学基金61806221

2023-02-07(万方平台首次上网日期,不代表论文的发表时间)

共8页

262-269

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

50

2023,50(1)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn