10.16652/j.issn.1004-373x.2023.14.031
融合注意力与语义引导的视频描述生成方法
将基于深度学习的视频描述生成方法应用到海量视频检索和视频内容审核中,是为了通过视频描述方法生成语义文本,达到对视频的高效组织和管理.然而,现有的视频描述方法缺少对语义信息的探索,无法专注于视频中的特定动作的语义特征和语义表达.为克服上述局限性,文中提出一种融合注意力与语义引导的视频描述生成方法.在解码过程中,该方法使用自适应注意门控单元进行视觉特征和语义信息的融合,通过两个专用的LSTM层引导模型生成文本,使模型生成更准确的词.为验证所提方法的有效性,使用数据集 MSR-VTT和 MSVD进行实验.结果表明,融合注意力与语义引导能够有效提升视频描述生成方法的性能,相较于其他模型,所提方法各项评价指标均有一定提升.
视频描述生成方法、注意力机制、语义引导、视觉特征、编码器、解码器、LSTM层
46
TN911-34;TP399
黑龙江省自然科学基金项目;黑龙江省哲学社会科学基金项目;黑龙江省高等学校教改工程项目;东北石油大学研究生教育创新工程;东北石油大学引导性创新基金;黑龙江省省属本科高校基本科研业务费;黑龙江省教育科学规划重点课题
2023-07-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
180-186