基于马氏决策过程的易逝品联合策略
为了有效解决零售商在销售易逝品时的订货、旧产品处理及定价的联合决策问题,提出运用马氏决策过程建立模型及使用Q学习算法求得最优策略.最优策略包括各个状态下选择的决策动作,它能使从现在起及后续无限期的贴现总值为最大.算法中的迭代公式通过不断与环境进行互动并得到反馈,时刻更新最优策略.基于有限的状态集和动作集,在状态转移概率及当期期望收益未知的情况下,算法经过长时间学习后能够得到稳定的最优策略.研究发现,各参数(变化)对联合策略中各策略的特征有不同的影响,该结论为启发式策略的相关研究提供了一定的理论支持和解决思路.
易逝品、马氏决策过程、Q学习算法、订货策略、定价策略
23
F272;F275(企业经济)
广东省自然科学基金资助项目2016Z00052.Project supported by the Natural Science Foundation of Guangdong Province,China2016Z00052
2017-03-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
144-153