期刊专题

10.13328/j.cnki.jos.006671

逆向强化学习研究综述

引用
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.

逆向强化学习、模仿学习、生成对抗模仿学习、逆向最优控制、强化学习

34

TP18(自动化基础理论)

国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏省高等学校自然科学研究重大项目;江苏省高等学校自然科学研究重大项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;苏州市应用基础研究计划;江苏高校优势学科建设工程

2023-10-19(万方平台首次上网日期,不代表论文的发表时间)

共32页

4772-4803

暂无封面信息
查看本期封面目录

软件学报

1000-9825

11-2560/TP

34

2023,34(10)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn