10.3969/j.issn.1673-9469.2006.03.031
基于MDP自适应决策的库存控制
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法.本文采用一种强化学习算法-在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了.
MDP自适应决策、在线Q(λ)算法、库存控制、连续状态和决策空间、神经网络
23
O211(概率论与数理统计)
2006-11-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
109-112