基于时-空特征的全卷积网络用于视频人眼关注预测的研究
视频人眼关注预测是在视频中标注能够吸引人眼关注的感兴趣显著区域,对于自动提取大量视频的语义信息有着重要的应用.该研究从目前显著性处理主流算法全卷积网络的局限性出发,提出了一种基于时间-空间特征的深度学习模型用于预测视频中的人眼关注区域.首先,采用全卷积网络提取视频帧图像的空间特征,光流方法用于提取相邻帧之间的时间运动特征,通过长短期记忆网络处理当前帧与其前 6 帧的空间特征与时间特征,得到最终的人眼关注区域预测图.使用INB 和IVB 两个人眼关注视频数据库进行计算.实验结果表明,在地球移动距离、受试者工作特征曲线下面积、标准化扫描路径显著性、线性相关性等 4 个性能评估标准分别取得了 0.375 1、0.818 6、2.024 1、0.745 7 和 0.413 7、0.785 6、1.964 5、0.734 9 的结果,预测性能优于 5 种对比算法,表明本文方法在视频人眼关注预测上能够取得较准确的结果.
视频、人眼关注、时空特征、全卷积网络、光流、长短期记忆网络
52
TP37(计算技术、计算机技术)
天津市教委科研计划资助项目2017KJ151. Supported by the Tianjin Municipal Education Commission Research Project2017KJ151
2019-08-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
1062-1068