10.3778/j.issn.1002-8331.2201-0233
多时间尺度一致性的弱监督时序动作定位
由于弱监督时序动作定位模型使用视频级的标签作为监督信号,模型在识别出动作实例中最具区分性的视频片段时,也会将和视频级标签有关的背景片段误认为是动作,难以产生完整的动作提议.为了进一步检测动作片段,通过分析动作片段在多时间尺度上标记的一致性,提出了一种多时间尺度一致性的弱监督时序动作定位方法.对输入的视频帧提取RGB和光流的特征,设计一种多时间尺度的模块,使用不同尺寸的卷积核建模视频的时序关系.通过估计多时间尺度特征的时间类激活图,并对多分支的时间类激活图进行融合,获得多时间尺度一致性的动作预测标签.为了进一步优化模型预测的动作标签,采用迭代优化策略,在每次迭代中更新预测标签,并为模型训练提供有效的帧级监督信号.在THUMOS14和ActivityNet1.3数据集上进行实验验证,实验结果表明,方法性能优于现有弱监督时序动作定位方法.
弱监督、时序动作定位、多时间尺度、一致性
59
TP391(计算技术、计算机技术)
安徽省重点研究与开发计划项目;安徽省自然科学基金;中央高校基本科研业务费专项;中央高校基本科研业务费专项
2023-05-30(万方平台首次上网日期,不代表论文的发表时间)
共11页
151-161