期刊专题

10.11896/jsjkx.210800212

基于预算时变的多臂赌博机模型

引用
目前已有很多有关预算的多臂赌博机模型,但这些模型能解决的实际问题具有局限性,即这些问题必须都是全程受一个总预算限制.对此,文中提出基于预算时变的多臂赌博机模型,该模型能够打破这种局限性,并被用于解决其他更多的实际问题.该模型抓住了学习者每一轮的动作都受到相应这一轮预算限制的情况.更具体地说,每一轮,玩家都需要在相应这一轮预算的限制下选择拉L(L≥1)个臂(L不是一个固定值).玩家的目标就是在每一轮预算的限制下,最大化总的平均奖励.根据这个模型,文中提出基于置信界的动态规划算法.该算法利用模型的特点,每一轮都以臂的经验平均奖励的置信上界为依据,然后使用动态规划算法进行拉臂操作.文中进一步引入遗憾的概念,并从理论上推导得出该算法遗憾的上界与最终预算的总和存在一定的关系.最后,通过实验,将所提算法在不同场景下和其他几个传统的预算受限的多臂赌博机算法(ε-first,KUBE,BTS)进行比较,验证了所提算法的可行性.

多臂赌博机、预算时变、经验平均奖励、动态规划、遗憾

49

TP301(计算技术、计算机技术)

国家自然科学基金61902358

2023-05-22(万方平台首次上网日期,不代表论文的发表时间)

共6页

163-168

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

49

2022,49(z2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn