10.3969/j.issn.1672-6952.2016.06.014
模型自由的离散时间系统的随机线性二次最优控制
针对模型自由的随机线性离散时间系统,通过Q学习算法求解无限时间随机线性二次最优控制问题.首先根据贝尔曼最优性原理定义Q函数,通过值迭代算法的思想构造Q学习算法;其次给出Q学习算法的等价形式并证明其收敛性;最后通过一个仿真实例说明Q学习算法的有效性.
Q学习算法、值函数、随机线性二次最优控制、随机代数方程
36
TP273.1(自动化技术及设备)
教育部基本科研业务项目N140404004
2017-01-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
64-68