10.11925/infotech.2096-3467.2021.0226
基于指代消解的引文内容抽取研究
[目的]为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容.[方法]将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取.[结果]实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849.[局限]缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷.[结论]本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考.
信息抽取;指代消解;引文内容;引文上下文
5
G250;TP391(图书馆学、图书馆事业)
本文系国家社会科学基金重大项目项目编号:19ZDA345
2021-11-08(万方平台首次上网日期,不代表论文的发表时间)
共9页
25-33