一种多动机强化学习框架
以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表.这种状态-动作的二层映射结构缺乏灵活性,同时不能有效地使用先验知识引导学习过程.为了解决这一问题,提出了一种基于多动机强化学习(MMRL)的框架.MMRL框架在状态与动作间引入动机层,将原有的状态-动作二层结构扩展为状态-动机-动作三层结构,可根据经验设置多个动机.通过动机的设定实现了先验知识的利用,进而加快了强化学习的进程,提高了强化学习的灵活性.实验表明,通过合理的动机设定,多动机强化学习的学习速度较传统强化学习有明显提升.
强化学习、多动机、Q学习、MMQ—unique算法、MMQ-voting算法
50
TP181(自动化基础理论)
国防"十一五"预研基金项目402040202;国防"十二五"预研基金项目041802008
2013-04-03(万方平台首次上网日期,不代表论文的发表时间)
共8页
240-247