基于时空信息辅助监督的语言-视频对比学习模型

引用

摘要：

同时使用语言和图像两种模态信息的神经网络模型在计算机视觉领域取得了很大进展.一些将其用于视频识别任务的工作,存在未考虑视频中丰富的时间-空间信息、用于描述类别的文本过于简单等不足.对此,本文提出了基于时空辅助信息监督的语言-视频对比学习模型.对于视频编码,提出了基于类别词元的时序加权位移模块进行时序建模,使得时序信息在网络从底层到高层的各个层次传播;而且还提出了时空信息辅助监督模块,深入挖掘视觉词元中蕴含的丰富时空信息.对于语言编码,提出了一种基于大语言模型的提示学习方法,对行为类别文本描述进行扩展,生成具有丰富上下文语义信息的文本描述.实验部分,本文提出的模型在4个视频行为识别数据集mini-Kinetics-200、Kinetics-400、UCF101和HMDB51上,达到了优于当前最先进方法或与当前最先进方法识别准确率相当的水平,比基线方法的识别准确率分别提升了 2.5％、0.3％、0.6％和2.4％.

关键词：行为识别、多模态模型、时序建模、时空信息辅助监督、提示学习

所属期刊栏目：47

分类号：TP391(计算技术、计算机技术)

资助基金：吉林省科技厅科技发展计划项目;辽宁省应用基础研究计划项目

在线出版日期：2024-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：1769-1785

英文信息展示

期刊专题