PDF文档中的脚注识别研究
针对PDF文档的脚注识别问题,提出一种自动识别脚注及其引用,并建立它们之间匹配关系的方法.首先针对PDF文档提取脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术,处理在不同文档中相异但在同一文档中相似的特征,从而使得识别过程能够适应不同文档类型.此外,利用脚注与引用的匹配结果为识别过程提供反馈,进一步提高了识别准确性.在真实文档测试集上的实验结果表明,所提方法对于PDF文档的脚注识别取得较高的准确率和召回率.
脚注、PDF文档、文档分析与理解
51
TP391(计算技术、计算机技术)
国家自然科学基金61202232;北京市自然科学基金4132033
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
1017-1021