10.3321/j.issn:1002-8331.2006.33.011
递阶再励学习中Option的自动发现与生成
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option.和现有的方法相比具有和任务无关、不需要先验知识等优点;能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享.
递阶再励学习、Option、探索密度检测
42
TP18(自动化基础理论)
2006-12-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
34-37