10.13998/j.cnki.issn1002-1248.21-0237
基于PDF版式特征的文献篇章结构细粒度抽取方法研究
[目的/意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法.[方法/过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取.根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组.[结果/结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作.
版式特征;篇章结构;章节标题;细粒度抽取;机器学习
33
G250(图书馆学、图书馆事业)
中国农业科学院科技创新工程CAAS-ASTIP-2016-AII
2021-10-14(万方平台首次上网日期,不代表论文的发表时间)
共11页
93-103