自注意力多尺度特征融合的遥感图像语义分割算法
针对遥感图像内容复杂、物体尺度差异较大和分布不均匀等因素导致遥感图像语义分割不完整、准确率低的问题,提出一种利用自注意力进行多尺度特征融合的遥感图像语义分割算法.该算法的主体基于编码-解码器结构,编码器使用 Swin-Transformer 模型来提取复杂的多尺度特征,解码器由自注意力多尺度特征融合模块和特征金字塔网络构成.首先,将提取的多个尺度的特征分别进行相应的调整,转换成相同尺度;并将其输入到自注意力多尺度特征融合模块,对图像的多尺度特征进行融合,以确保不同尺度的特征信息在语义分割中被充分利用;然后,使用特征金字塔从上往下对自注意力多尺度特征融合的结果进一步叠加融合;最后,预测特征图得到分割结果.在公开遥感图像语义分割数据集 LoveDA 上与主流算法进行比较,实验结果表明,该算法在单尺度策略下平均交并比达到52.77%,比次优结果提升了1.42个百分点;在多尺度策略下平均交并比为54.19%,比次优结果提升了1.47个百分点.该算法能够有效地融合多尺度特征提高分割精度.
自注意力、特征融合、Swin-Transformer、遥感图像、语义分割
35
TP391.41(计算技术、计算机技术)
四川省自然科学基金;四川省科技厅重点研发项目;四川省科技厅新一代人工智能平台重大专项
2023-11-14(万方平台首次上网日期,不代表论文的发表时间)
共10页
1259-1268