10.3969/j.issn.1671-1815.2011.05.014
一种基于新奇的动作发育模型
机器人的动作是一切活动的基本单元.就足球机器人而言,好的动作设计实现是决策实现的重要保证.传统的强化学习模型在整个学习过程中使用恒定学习速率,导致在未知环境下收敛速度慢,且适应性差.针对以上问题,提出了一种新的动作发育模型--基于新奇的动作发育模型;该模型在学习过程中使用基于状态的遗忘均值的学习速率,更加符合人类发育的真实过程.模型采用内在价值系统,该系统由三部分组成:奖励、惩罚和新奇评判.在机器人足球比赛中,通过机器人截球实验表明,该模型在不断变化的环境下可以高效而准确地完成相应的截球动作.
基于新奇的动作发育模型、强化学习、遗忘均值、内在价值系统
11
TP242.6(自动化技术及设备)
2011-04-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
975-978