期刊专题

10.3969/j.issn.1002-137X.2006.02.049

贝叶斯学习与强化学习结合技术的研究

引用
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡.贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段.因此,把强化学习和贝叶斯学习相结合,使Agent可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作.本文分别介绍了单Agent贝叶斯强化学习方法和多Agent贝叶斯强化学习方法:单Agent贝叶斯强化学习包括贝叶斯Q学习、贝叶斯模型学习以及贝叶斯动态规划等;多Agent贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等.最后,提出了贝叶斯在强化学习中进一步需要解决的问题.

贝叶斯学习、强化学习、单Agent、多Agent

33

TP3(计算技术、计算机技术)

中国科学院资助项目60475026;科技部科研项目2002CB312002;江苏省自然科学基金BK2004079

2006-04-06(万方平台首次上网日期,不代表论文的发表时间)

共5页

173-177

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

33

2006,33(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn