10.3321/j.issn:1002-8331.2005.13.012
增强Q学习在非确定马尔可夫系统寻优问题中的应用
增强学习属于机器学习的一种,它通过与环境的交互获得策略的改进,其在线学习和自适应学习的特点使其成为解决策略寻优问题有力的工具.多智能体系统是人工智能领域的一个研究热点,对于多智能体学习技术的研究需要建立在系统环境模型的基础之上,由于多个智能体的存在,智能体之间的相互影响使得多智能体系统高度复杂,多智能体系统环境属于非确定马尔可夫模型,因此直接把基于马尔可夫模型的增强学习技术引入多智能体系统是不合适的.论文基于智能体间独立的学习机制,提出了一种改进的多智能体Q学习算法,使其适用于非确定马尔可夫环境,并对该学习技术在多智能体系统R0boCup中的应用进行了研究,实验证明了该学习技术的有效性与泛化能力,最后简要给出了多智能体增强学习研究的方向及进一步的工作.
多智能体、增强学习、非确定马尔可夫系统、策略寻优
41
TP24(自动化技术及设备)
国家高技术研究发展计划863计划2001AA4422200
2005-06-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
36-38,146