期刊专题

10.7544/issn1000-1239.202220697

基于深度强化学习的掼蛋扑克博弈求解

引用
在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流.其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解.因此,提出了一种软深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法.该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率.所提出的SDMC方法训练出的策略模型参加第 2届"中国人工智能博弈算法大赛"时获得冠军.与第 1届比赛冠军策略和第 2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性.

非完美信息、深度强化学习、多智能体系统、软深度蒙特卡洛方法、扑克博弈

61

TP391(计算技术、计算机技术)

2024-01-20(万方平台首次上网日期,不代表论文的发表时间)

共11页

145-155

相关文献
评论
暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

61

2024,61(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn