期刊专题

10.7544/issn1000-1239.202220388

基于内在动机的深度强化学习探索方法综述

引用
近年来,深度强化学习(deep reinforcement learning,DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了 3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.

深度强化学习、探索、内在动机、内在奖励、启发式

60

TP391(计算技术、计算机技术)

2023-12-08(万方平台首次上网日期,不代表论文的发表时间)

共24页

2359-2382

暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

60

2023,60(10)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn