基于双塔结构的场景文字检测模型

引用

摘要：

当图像中文字区域形状复杂多变时,传统锚点方法难以精确定位文字,针对这一问题,提出一种具有双塔结构的文字分割检测算法.在网络中增加自下而上的特征增强路径以充分提炼语义信息,与上一级自上而下的结构形成双金字塔模型;接着新增一条路径缩短较底层与最顶层特征之间的距离,同时使用膨胀卷积,增大卷积核的感受野;在损失函数的设计中引入γ参数,改变图像中正负样本的权重分配,使网络更关注困难样本.在标准数据集ICDAR2015和ICDAR2017上进行评估,实验结果表明提出的双塔结构模型能有效提高网络对文字区域的检测准确度.

关键词：卷积神经网络;特征融合;文字检测;图像分割

所属期刊栏目：58

分类号：TP391.1;TP18(计算技术、计算机技术)

资助基金：上海市自然科学基金16ZR1413300

在线出版日期：2022-02-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：242-248

英文信息展示

期刊专题