10.13335/j.1000-3673.pst.2022.1241
基于优势柔性策略-评价算法和迁移学习的区域综合能源系统优化调度
为提高清洁能源消纳率及减少碳排放对环境的污染,实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优化调度,该文提出了基于优势柔性策略–评价(advantage learning soft actor-critic,ALSAC)算法和迁移学习的区域综合能源系统优化调度方法.利用环境信息与智能体进行通信交互,以低碳、经济为目标实现区域综合能源系统的优化调度.在文中分析了提升柔性策略–评价(soft actor-critic,SAC)鲁棒性的最大熵机制,并与基于策略梯度的多种深度强化学习算法和启发式算法进行了性能对比,随后将优势学习的思想引入SAC的Q值函数更新中,解决了算法对Q值的过估计问题,提升了算法的性能.为提高智能体的学习效率和应对新场景的泛化能力,加入了迁移学习的参数迁移.算例表明,基于ALSAC算法和迁移学习的优化调度策略具有较好的鲁棒性、泛化能力和高效的学习效率,实现区域综合能源系统的灵活高效调度.
区域综合能源系统、深度强化学习、柔性策略-评价、迁移学习、优势学习
47
TM721(输配电工程、电力网及电力系统)
国家自然科学基金;黔科合支撑一般黔科合平台人才-GCC016-1.
2023-04-18(万方平台首次上网日期,不代表论文的发表时间)
共12页
1601-1611,中插68-中插71