10.3969/j.issn.1002-137X.2010.12.042
基于TD(λ)的自然梯度强化学习算法
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注.研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法.TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度.车杆平衡系统仿真实验验证了所提算法的有效性.
策略梯度、自然梯度、TD(λ)、资格迹
37
TP181(自动化基础理论)
国家自然科学基金项目70971067,60905002;江苏省高校自然科学重大基础研究项目08KJA520001;江苏省六大人才高峰项目2007148
2011-03-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
186-189