DOI：10.3969/j.issn.1671-1815.2011.05.014

一种基于新奇的动作发育模型

引用

摘要：

机器人的动作是一切活动的基本单元.就足球机器人而言,好的动作设计实现是决策实现的重要保证.传统的强化学习模型在整个学习过程中使用恒定学习速率,导致在未知环境下收敛速度慢,且适应性差.针对以上问题,提出了一种新的动作发育模型--基于新奇的动作发育模型;该模型在学习过程中使用基于状态的遗忘均值的学习速率,更加符合人类发育的真实过程.模型采用内在价值系统,该系统由三部分组成:奖励、惩罚和新奇评判.在机器人足球比赛中,通过机器人截球实验表明,该模型在不断变化的环境下可以高效而准确地完成相应的截球动作.

关键词：基于新奇的动作发育模型、强化学习、遗忘均值、内在价值系统

所属期刊栏目：11

分类号：TP242.6(自动化技术及设备)

在线出版日期：2011-04-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：975-978

英文信息展示

期刊专题