期刊专题

10.11896/jsjkx.201000084

基于动作约束深度强化学习的安全自动驾驶方法

引用
随着人工智能的发展,自动驾驶领域的研究也日益壮大.深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一.其中,安全探索问题是该领域的一个研究热点.然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败.针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制.无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态.另外,CSAC方法又对智能体的动作进行了约束.当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作.为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比.结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度.最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性.

安全自动驾驶;深度强化学习;软行动者-评论家;车道保持;无人车

48

TP181(自动化基础理论)

国家自然科学基金;江苏省高等学校自然科学研究重大项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;苏州市应用基础研究计划工业部分;江苏高校优势学科建设工程资助项目

2021-09-17(万方平台首次上网日期,不代表论文的发表时间)

共9页

235-243

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

48

2021,48(9)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn