10.3969/j.issn.1002-137X.2012.05.051
学习过程中共享经验的Q学习算法的研究
主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法.该算法模拟人类的团队学习行为,各个智能体拥有共同的最终目标,即围捕猎物,同时每个智能体通过协商获得自己的阶段目标.在学习过程中把学习分为阶段性学习,每学习一个阶段,就进行一次阶段性总结,分享彼此好的学习经验,以便于下一阶段的学习.这样以学习快的、好的带动慢的、差的,进而提升总体的学习性能.仿真实验证明,在学习过程中共享经验的Q学习算法能够提高学习系统的性能,高效地收敛于最优策略.
Q学习算法、MAS、围捕问题、共享经验
39
TP181(自动化基础理论)
2012-10-25(万方平台首次上网日期,不代表论文的发表时间)
共4页
213-216