多维度卷积融合的密集不规则文本检测
基于深度学习的自然场景文本检测算法进展显著,但对具有密集不规则排布特点的文本来说,由于其间距小、分布密集,导致特征提取困难,文本检测不全;同时,现有文本检测方法常采用的不同维度特征直接拼接的方式会导致多尺度特征融合不充分,造成语义信息的丢失.针对上述问题,本文提出一种基于多维度卷积融合的密集不规则文本检测方法.网络主体采用FPN结构,设计了文本增强模块(Text Enhancement Module,TEM),通过引入额外全局文本映射以强化网络对文本信息的关注能力;提出了通道融合策略(Channel Fusion Strategy,CFS),采用自底向上方式建立高低维度特征信息链,生成语义更加丰富的特征图,减少信息损失;预测阶段采用渐进式拓展文本核的方法生成文本预测结果.在DAST1500及ICDAR2015和CTW1500数据集上的实验表明,该方法其F值分别达到81.8%,83.0%及79.0%.提出算法不仅在密集不规则文本检测上表现出更好的性能,而且在一般自然场景文本(多向、曲线文本)上也具有一定竞争力.
密集不规则文本;深度学习;卷积神经网络;文本增强;通道融合
29
TP273(自动化技术及设备)
国家自然科学基金面上项目;陕西省自然科学基础研究计划面上项目;西安建筑科技大学基础研究基金项目;西安建筑科技大学自然科学基金项目
2021-11-18(万方平台首次上网日期,不代表论文的发表时间)
共12页
2210-2221