期刊专题

10.3772/j.issn.2095-915x.2021.05.001

基于SciBERT模型的引文上下文识别系统优化

引用
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统.该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0).[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成.该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果.[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%.相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%.在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献.该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con.

引文识别;隐性引文上下文;SciBERT;引文识别系统

7

TP311.52;G35(计算技术、计算机技术)

2021-12-03(万方平台首次上网日期,不代表论文的发表时间)

共12页

3-14

暂无封面信息
查看本期封面目录

情报工程

2095-915X

10-1263/G3

7

2021,7(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn