10.3772/j.issn.1673-2286.2022.03.001
基于学术论文全文内容的特定领域算法实体抽取研究
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础.学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别.本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种.研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善.
学术论文全文内容、算法实体、实体抽取、学术文本挖掘
G250.2(图书馆学、图书馆事业)
江苏省社会科学基金项目18TQD003
2022-05-09(万方平台首次上网日期,不代表论文的发表时间)
共13页
2-14