面向数字文旅的图像文本跨模态检索方法
[目的/意义]图像文本跨模态检索应用对最大化利用数字文旅资源具有重要意义.然而,数字文旅领域的图像文本跨模态检索方法面临长文本挑战、数据缺失、内存资源有限等问题.为此,我们提出了一种新的基于Transformers和MobileNet V3模型的数字文旅图像文本跨模态方法.[方法/过程]首先,提出了基于自注意力机制的双层多组Transformers模型从标题、正文和评论等文本中学习具有互补性的文本特征;其次,设计了 FastR-CNN和MobileNet V3模型学习图像局部细粒度特征;最后,提出了多元线性回归方法在共享子空间补全缺失数据.构建以图搜文和以文搜图的双向三元损失函数学习模型参数.[结果/结论]在标准数据集Flickr30k、自建数据集CulTour-Sha和有数据缺失的数据集Flickr30k-1与CulTour-Sha-1上的大量实验结果表明,我们的方法在召回率、内存需求和计算速度等方面优于当前几种先进的跨模态检索方法.
数字文旅、跨模态检索、深度学习特征、双向三元组损失函数、精细特征
43
教育部人文社会科学研究项目;江苏高校哲学社会科学研究项目;苏州市图书馆学会重点项目;常熟理工学院高等教育研究项目
2022-04-06(万方平台首次上网日期,不代表论文的发表时间)
共10页
71-80