基于移位窗口金字塔Transformer的遥感图像目标检测
目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点.相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的.文中提出了一种新颖的基于移位窗口Transformer的目标检测网络.模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算.在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系.此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块.自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达.模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息.所提网络模型在UCAS-AOD数据集和RSOD数据集上进行训练并测试,实验结果表明,模型在遥感图像目标检测任务上效果显著,尤其适用于不规则的目标和小目标类别,如立交桥和汽车.
深度学习、目标检测、遥感图像、注意力机制、Transformer
50
TP751(遥感技术)
国家自然科学基金;装备预研教育部联合基金
2023-02-07(万方平台首次上网日期,不代表论文的发表时间)
共9页
105-113