10.3969/j.issn.1007-1997.2024.08.002
基于多模态特征融合的高效性语义视频检索系统
本文以"视听海南"APP为例,提出了一种基于多模态特征融合的高效性语义视频检索系统.该系统采用无监督的DBSCAN聚类分析,从高维度视频帧内容编码中筛选关键帧,并引入注意力机制和掩体动作来识别预训练网络组成的并行编码器,捕捉图像的局部空间和动作信息,利用对抗生成网络和三元组损失函数优化不同模态特征的对齐,实现高效且准确的视频检索服务.
多模态、视频检索、特征融合、聚类分析
31
TP391.41;TP24;TN911.73-34
2024-09-02(万方平台首次上网日期,不代表论文的发表时间)
共3页
16-18