双LSTM驱动的高分遥感影像地物目标空间关系语义描述
高分辨率遥感影像中的地物目标具有清晰的类别属性与空间关系语义.在人工智能技术支撑下,用计算机自动认知其空间关系具备了可行性.目前,遥感影像场景的语义理解主要依托图像描述任务(image caption),基于影像的全局特征生成描述语句.但是,这种粗粒度特征容易导致地物目标的类别属性在描述语句生成过程中被错误预测.事实上,以地物目标作为空间关系语义理解的基本单元,更符合人们认知地理空间的习惯.为得到更准确的描述语句,本文构建了基于地物目标的遥感影像语义理解数据集,并提出双LSTM驱动的地物目标空间关系语义理解方法.该方法用目标检测模型识别影像中的显著目标,将这些目标特征输入到语言模型,以缓解描述语句中类别被错误预测的问题.进而,为利用遥感影像场景信息,将影像全局特征与目标区域特征进行融合,并用双LSTM预测目标的注意力分布,提高描述语句生成质量.对比实验结果表明,该方法能生成更准确的图像描述.
高分辨率遥感影像、地物目标、空间关系、语义理解、图像描述
25
P237;TP391;TP751
国家重点研发计划;国家自然科学基金;湖南省自然科学基金
2021-07-06(万方平台首次上网日期,不代表论文的发表时间)
共10页
1085-1094