一种基于Off-Policy的无模型输出数据反馈H∞控制方法
针对模型未知的线性离散系统在扰动存在条件下的调节控制问题,提出了一种基于Off-policy的输入输出数据反馈的H∞控制方法.本文从状态反馈在线学习算法出发,针对系统运行过程中状态数据难以测得的问题,通过引入增广数据向量将状态反馈策略迭代在线学习算法转化为输入输出数据反馈在线学习算法.更进一步,通过引入辅助项的方法将输入输出数据反馈策略迭代在线学习算法转化为无模型输入输出数据反馈Off-policy学习算法.该算法利用历史输入输出数据实现最优输出反馈策略的学习,同时克服了On-policy算法需要频繁与实际环境进行交互这一缺点.除此之外,与On-policy算法相比,Off-policy学习算法具有克服学习噪声的影响,使学习结果收敛于理论最优值这一优点.最终,通过仿真实验验证了学习算法的收敛性.
H∞控制;强化学习;Off-policy;数据驱动
47
国家自然科学基金;兴辽英才计划
2021-10-29(万方平台首次上网日期,不代表论文的发表时间)
共12页
2182-2193