10.3772/j.issn.2095-915x.2021.05.001
基于SciBERT模型的引文上下文识别系统优化
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统.该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0).[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成.该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果.[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%.相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%.在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献.该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con.
引文识别;隐性引文上下文;SciBERT;引文识别系统
7
TP311.52;G35(计算技术、计算机技术)
2021-12-03(万方平台首次上网日期,不代表论文的发表时间)
共12页
3-14