10.3969/j.issn.1000-8152.2000.05.002
强化学习理论、算法及应用
强化学习(reinforcement learning)一词来自于行为心理学,这一理论把行为学习看成是反复试验的过程,从而把环境状态映射成相应的动作.首先全面地介绍了强化学习理论的主要算法,即瞬时差分法、Q -学习算法及自适应启发评价算法;然后介绍了强化学习的应用情况;最后讨论了强化学习目前所要研究的问题.
强化学习、瞬时差分法、Q-学习、自适应启发评价、智能控制系统
17
O231(控制论、信息论(数学理论))
国家自然科学基金
2005-11-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
637-642