期刊专题

线性二次二人Stackelberg博弈均衡点求解:一种Q学习方法

引用
近年来,Stackelberg博弈被广泛用于解决信息物理系统安全控制、智能电网能源管理等问题.已有的Stackelberg均衡点求解方法大多需要已知系统模型信息,而在实际应用中模型信息通常难以精确获取,这在一定程度上限制了相关理论研究成果的应用.鉴于此,本文研究了不基于系统模型的Stackelberg博弈均衡点的求解方法.具体地,本文考虑线性二次二人Stackelberg博弈,其中博弈状态演化满足线性方程,且成本函数为二次形式.博弈的两个参与者为能够预测另一个体可能响应的个体(即领导者),和根据领导者策略作出最优响应的个体(即跟随者).因为本文考虑线性形式的状态演化和二次形式的成本函数,且领导者先于跟随者采取行动,故领导者和跟随者的决策问题可建模为两层的线性二次型最优控制问题.本文按照从跟随者到领导者的原则,基于动态规划原理推导出最优控制策略.该策略被证明恰好为Stackelberg均衡策略,但其计算需使用系统模型信息.基于此策略,本文提出一种基于执行器-评价器(actor-critic)结构的Q学习算法,解决了系统动力学模型未知情况下线性二次二人Stackelberg博弈均衡点求解问题.此外,本文理论证明了所提算法能够保证系统状态、执行网络和评价网络权重估计误差一致最终有界,并通过数值仿真实验说明基于Q学习算法所得控制策略能够使系统状态稳定,且估计控制策略下的成本函数偏离均衡策略下的成本函数的幅度较小.

线性二次二人Stackelberg博弈、最优控制、模型未知、执行器-评价器结构、Q学习

52

TP181;F224.32;G633.41

国家自然科学基金;国家自然科学基金;国家自然科学基金;霍英东教育基金;北京大学百度基金资助项目

2022-07-11(万方平台首次上网日期,不代表论文的发表时间)

共15页

1083-1097

相关文献
评论
暂无封面信息
查看本期封面目录

中国科学(信息科学)

1674-7267

11-5846/N

52

2022,52(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn