10.3321/j.issn:1003-9775.2007.03.023
协同设计任务调度的多步Q学习算法
首先建立任务调度问题的目标模型,在分析Q学习算法的基础上,给出调度问题的马尔可夫决策过程描述;针对任务调度的Q学习算法更新速度慢的问题,提出一种基于多步信息更新值函数的多步Q学习调度算法.应用实例表明,该算法能够提高收敛速度,有效地解决任务调度问题.
任务调度、协同设计、强化学习、Q学习、多步Q学习
19
TP3(计算技术、计算机技术)
总装备部预研项目;南京理工大学校科研和教改项目NJUST200401
2007-04-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
398-402,408