期刊专题

10.11896/jsjkx.190500017

基于残差连接的场景文本识别端到端网络结构优化

引用
针对已有文本识别网络由于深度不够而识别准确率较低的问题,文中提出一种改进的端到端文本识别网络结构.首先,将文本作为序列,采用残差模块将文本按列切分成特征向量输入循环层.这种残差结构增加了卷积网络的深度,使网络保持对文本图像的最佳表征能力,实现对文本信息的捕捉.另一方面,残差模块采用堆叠层来学习残差映射,在层数加深的情况下提高了网络的收敛性.然后,采用循环层对这些文本特征序列进行上下文建模,并把建模结果输入Softmax层以获得序列对应标签的预测,实现了对任意长度文本的识别.循环层使用长短时记忆网络学习文本之间的依赖关系,解决长序列训练过程中的"梯度消失"问题.最后,通过最优路径方法进行文本标签转录.该方法找到一条路径使其概率最大,并输出这条路径对应的序列为最优序列.改进的文本识别网络结构增加了深度,提高了文本图像的特征描述能力和在噪声下的稳定性.在多个测试数据集(ICDAR2003,ICDAR2013,SVT和IIIT5K)上将所提算法与已有典型算法进行实验对比分析,结果表明该网络结构能够得到更高的场景文本识别准确率,验证了其有效性.

残差连接、场景文本识别、堆叠层、网络深度、最优路径

47

TP311(计算技术、计算机技术)

国家自然科学基金61871350

2020-08-26(万方平台首次上网日期,不代表论文的发表时间)

共6页

221-226

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

47

2020,47(8)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn