DOI：10.3969/j.issn.1673-9469.2006.03.031

基于MDP自适应决策的库存控制

引用

摘要：

MDP自适应决策是求解信息不完全马尔可夫决策问题的方法.本文采用一种强化学习算法-在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了.

关键词：MDP自适应决策、在线Q(λ)算法、库存控制、连续状态和决策空间、神经网络

所属期刊栏目：23

分类号：O211(概率论与数理统计)

在线出版日期：2006-11-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：109-112

英文信息展示

期刊专题