10.11925/infotech.2096-3467.2021.0164
基于词向量的PDF表格抽取研究
[目的]解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题.[方法]利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行.[结果]在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果F1值为98.07%,表格内容划分结果F1值超过99%,效果接近需要大量标注语料的深度学习文本分类模型.[局限]所提方法只能抽取关系型表格,且不适用于扫描型PDF文档.[结论]所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题.
表格抽取;PDF;词向量
5
G350(情报学、情报工作)
本文系国家社会科学基金重大项目项目编号:19ZDA348
2021-11-08(万方平台首次上网日期,不代表论文的发表时间)
共11页
34-44