DOI：10.16383/j.aas.c180685

基于多层忆阻脉冲神经网络的强化学习及应用

引用

摘要：

人工神经网络(Artificial neural networks,ANNs)与强化学习算法的结合显著增强了智能体的学习能力和效率.然而,这些算法需要消耗大量的计算资源,且难以硬件实现.而脉冲神经网络(Spiking neural networks,SNNs)使用脉冲信号来传递信息,具有能量效率高、仿生特性强等特点,且有利于进一步实现强化学习的硬件加速,增强嵌入式智能体的自主学习能力.不过,目前脉冲神经网络的学习和训练过程较为复杂,网络设计和实现方面存在较大挑战.本文通过引入人工突触的理想实现元件—忆阻器,提出了一种硬件友好的基于多层忆阻脉冲神经网络的强化学习算法.特别地,设计了用于数据-脉冲转换的脉冲神经元;通过改进脉冲时间依赖可塑性(Spiking-timing dependent plasticity,STDP)规则,使脉冲神经网络与强化学习算法有机结合,并设计了对应的忆阻神经突触;构建了可动态调整的网络结构,以提高网络的学习效率;最后,以Open AIGym中的CartPole-v0(倒立摆)和MountainCar-v0(小车爬坡)为例,通过实验仿真和对比分析,验证了方案的有效性和相对于传统强化学习方法的优势.

关键词：强化学习、脉冲神经网络、脉冲时间依赖可塑性规则、忆阻器

所属期刊栏目：45

资助基金：国家自然科学基金61601376,61672436;中央高校基本科研业务费XDJK2019C034;重庆市基础与前沿技术研究专项cstc2016jcyjA0547;中国博士后科学基金2018T110937;重庆市博士后科学基金Xm2017039;国家级大学生创新创业训练计划项目201810635017

在线出版日期：2019-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1536-1547

英文信息展示

期刊专题