PDF文档中的脚注识别研究

引用

摘要：

针对PDF文档的脚注识别问题,提出一种自动识别脚注及其引用,并建立它们之间匹配关系的方法.首先针对PDF文档提取脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术,处理在不同文档中相异但在同一文档中相似的特征,从而使得识别过程能够适应不同文档类型.此外,利用脚注与引用的匹配结果为识别过程提供反馈,进一步提高了识别准确性.在真实文档测试集上的实验结果表明,所提方法对于PDF文档的脚注识别取得较高的准确率和召回率.

关键词：脚注、PDF文档、文档分析与理解

所属期刊栏目：51

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61202232;北京市自然科学基金4132033

在线出版日期：2017-01-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1017-1021

英文信息展示

期刊专题