10.19850/j.cnki.2096-4706.2023.10.019
单向句法依存关系指导下的跨模态检索
大多数现有的跨模态检索方法仅使用每个模态内的模态内关系或图像区域和文本词之间的模态间关系.文章中提出了一种基于自然语言的句法依存关系的视觉语言模型,称为Dep-ViLT.通过句法依存分析,构建句法依存树,利用单向的句法依存关系增强核心语义的特征表达,促进语言模态与视觉模态的特征交互.实验表明,Dep-ViLT对比现有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%.最重要的是,Dep-ViLT在具有复杂语法结构的长难句中依然表现良好.
句法依存、跨模态检索、图卷积、Transformer
7
TP391.3(计算技术、计算机技术)
湖南省教育厅科学研究项目;湖南省自然科学基金面上项目;政府间国际科技创新合作资助;湖南工业大学研究生科研创新项目
2023-06-02(万方平台首次上网日期,不代表论文的发表时间)
共6页
74-79