基于预算时变的多臂赌博机模型
目前已有很多有关预算的多臂赌博机模型,但这些模型能解决的实际问题具有局限性,即这些问题必须都是全程受一个总预算限制.对此,文中提出基于预算时变的多臂赌博机模型,该模型能够打破这种局限性,并被用于解决其他更多的实际问题.该模型抓住了学习者每一轮的动作都受到相应这一轮预算限制的情况.更具体地说,每一轮,玩家都需要在相应这一轮预算的限制下选择拉L(L≥1)个臂(L不是一个固定值).玩家的目标就是在每一轮预算的限制下,最大化总的平均奖励.根据这个模型,文中提出基于置信界的动态规划算法.该算法利用模型的特点,每一轮都以臂的经验平均奖励的置信上界为依据,然后使用动态规划算法进行拉臂操作.文中进一步引入遗憾的概念,并从理论上推导得出该算法遗憾的上界与最终预算的总和存在一定的关系.最后,通过实验,将所提算法在不同场景下和其他几个传统的预算受限的多臂赌博机算法(ε-first,KUBE,BTS)进行比较,验证了所提算法的可行性.
多臂赌博机、预算时变、经验平均奖励、动态规划、遗憾
49
TP301(计算技术、计算机技术)
国家自然科学基金61902358
2023-05-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
163-168