自注意力机制的视频摘要模型
针对如何高效地识别出视频中具有代表性的内容问题,提出了一种对不同的视频帧赋予不同重要性的视频摘要算法.首先使用长短期记忆网络来建模视频序列的时序关系,然后利用自注意力机制建模视频中不同帧的重要性程度并提取全局特征,最后通过每一帧回归得到的重要性得分进行采样,并使用强化学习策略优化模型参数.其中,强化学习的动作定义为每一帧选或者不选,状态定义为当前这个视频的选择情况,反馈信号使用多样性和代表性代价.在2个公开数据集SumMe和TVSum中进行视频摘要实验,并使用F-度量来衡量这2个数据集上不同视频摘要算法的准确度,实验结果表明,提出的视频摘要算法结果要优于其他算法.
视频摘要、自注意力机制、递归神经网络、强化学习
32
TP391.41(计算技术、计算机技术)
国家发改委下一代互联网技术研发、产业化和规模商用专项CNGI-12-03-009
2020-07-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
652-659