期刊专题

10.11896/jsjkx.200300028

基于近端策略优化的RFID室内定位算法

引用
针对在动态射频识别(Radio Frequency Identification,RFID)室内定位环境中,传统的室内定位模型会随着定位目标数量的增加而导致定位误差增大、计算复杂度上升的问题,文中提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)的RFID室内定位算法.该算法将室内定位过程看作马尔可夫决策过程,首先将动作评价与随机动作相结合,然后进一步最大化动作回报值,最后选择最优坐标值.其同时引入剪切概率比,首先将动作限制在一定范围内,交替使用采样后与采样前的新旧动作,然后使用随机梯度对多个时期的动作策略进行小批量更新,并使用评价网络对动作进行评估,最后通过训练得到PPO定位模型.该算法在有效减少定位误差、提高定位效率的同时,具备更快的收敛速度,特别是在处理大量定位目标时,可大大降低计算复杂度.实验结果表明,本文提出的算法与其他的RFID室内定位算法(如Twin Delayed Deep Deterministic Policy Gradient(TD3),Deep Deterministic Policy Gradient(DDPG),Actor Critic using Kronecker-Factored Trust Region(ACK-TR))相比,定位平均误差分别下降了36.361%,30.696%,28.167%,定位稳定性分别提高了46.691%,34.926%,16.911%,计算复杂度分别降低了84.782%7,70.213%,63.158%.

RFID、室内定位、深度强化学习、剪切概率比

48

TP301.6(计算技术、计算机技术)

国家自然科学基金;广西自然科学基金

2021-04-19(万方平台首次上网日期,不代表论文的发表时间)

共8页

274-281

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

48

2021,48(4)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn