DPENet:轻量化文档姿态估计网络

引用

摘要：

现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题.从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(lightweight document pose estimation network),以优化上述问题.将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(differentiable spatial to numerical transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正.DPENet采用轻量化设计,以面向移动端的MobileNet V2为主干网络,模型体量只有10.6 MB.在SmartDoc-QA(仅取148张文档图像)数据集上与现有的三种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6％)和平均位移误差(mean displacement error,MDE)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有良好的表现.在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度.

关键词：姿态估计、深度学习、文档图像矫正、轻量化网络、MobileNet V2

所属期刊栏目：58

分类号：TP183(自动化基础理论)

资助基金：国家重点研发计划;北京市自然科学基金;北京市教育委员会科研计划项目;北京信息科技大学网络文化与数字传播北京市重点实验室开放课题

在线出版日期：2022-11-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：210-218

英文信息展示

期刊专题