10.3969/j.issn.1002-1965.2022.02.027
基于机器学习的科学数据正式引用识别方法研究
[研究目的]科学数据已经成为科研产出的重要成果类型之一,通过研究和观察科学数据的使用情况可以发现科学数据的管理需求,提高科研人员共享和重用科学数据的积极性.[研究方法]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,并对比评估了8种机器学习方法在数据集上的分类和识别效果.[研究结论]实证研究效果显示,机器学习分类方法可以用于科学数据正式引用识别,全文信息和样本集大小对分类效果起到关键性作用.
科学数据、正式引用、机器学习、识别方法、人工标注
41
G350(情报学、情报工作)
国家社会科学基金17ATQ008
2022-03-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
182-189