10.13232/j.cnki.jnju.2022.05.006
局部可观测环境下未来信息辅助的无模型深度强化学习
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性.
深度强化学习、局部可观测环境、对比预测编码、未来信息、表征学习
58
TP391(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金
2023-05-06(万方平台首次上网日期,不代表论文的发表时间)
共9页
796-804