自注意力机制和随机森林回归的视频摘要生成

引用

摘要：

视频摘要是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛.现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导致生成的摘要缺乏时间连贯性和代表性.提出了一个以编码器-解码器为框架的视频摘要网络.具体来说,编码部分由卷积神经网络提取特征,通过自注意力机制提升对关键特征的权重,而解码部分由融合了随机森林的双向长短期记忆网络构成,通过调整随机森林和双向长短期记忆网络在损失函数中所占比例,使模型具有较强的稳定性和预测准确率.实验在两个数据集上与其他七种方法进行了比较,综合实验结果证明了方法的有效性与可行性.提出了自注意力机制和随机森林回归的视频摘要网络,利用自注意力机制完成对特征的优化,将双向长短期记忆网络与随机森林结合,提升模型的稳定性与泛化性,有效降低损失值,使得生成的视频摘要更符合用户视觉特性.

关键词：计算机视觉;视频摘要;自注意力机制;长短期记忆网络;随机森林回归

所属期刊栏目：58

分类号：TP391(计算技术、计算机技术)

资助基金：甘肃省自然科学基金;兰州市人才创新创业项目;陇原青年创新创业人才项目;甘肃政法大学校级重大科研创新项目;甘肃省高等学校创新能力提升项目

在线出版日期：2022-03-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：198-205

英文信息展示

期刊专题