藏汉双语场景图像数据集合成及文本检测方法
为满足大量藏汉双语场景图像中的文字检测和识别的需求,合成数据集并训练深度学习模型,提出场景图像藏汉双语文本检测方法.首先,针对缺乏藏汉双语场景图像数据集的问题,提出基于轮廓检测和泊松图像编辑的合成方法,采用人工标注和自动化合成方式生成了具有相当规模的藏汉双语场景图像数据集BiTCSD,其中包含合成图像87680幅、人工标注图像5550幅;其次,验证了使用合成数据集训练模型的有效性;最后,在不同数据集上训练了深度文本框连接网络CTPN,并在测试集上针对不同语种评价了模型的文本检测性能.实验结果表明:通过合成样本训练CTPN模型,能够使模型的文本检测指标大幅提升;训练后的CTPN能够以较高的准确率和召回率检测场景图像中的藏汉双语文本区域,针对藏语文本的检测准确率P、召回率R和F值分别为0.91,0.85和0.88;针对汉语文本的检测准确率P、召回率R和F值分别为0.89,0.83和0.86.
场景文本检测、藏汉双语、合成数据集、深度学习
34
TP391.41(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;西北民族大学甘肃省一流学科引导专项;国家民委创新团队计划;甘肃省高等学校创新基金项目;甘肃省高等学校创新基金项目;中央高校基本科研业务费;中央高校基本科研业务费
2022-05-05(万方平台首次上网日期,不代表论文的发表时间)
共13页
592-604