期刊专题

10.3772/j.issn.1673-2286.2022.03.001

基于学术论文全文内容的特定领域算法实体抽取研究

引用
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础.学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别.本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种.研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善.

学术论文全文内容、算法实体、实体抽取、学术文本挖掘

G250.2(图书馆学、图书馆事业)

江苏省社会科学基金项目18TQD003

2022-05-09(万方平台首次上网日期,不代表论文的发表时间)

共13页

2-14

暂无封面信息
查看本期封面目录

数字图书馆论坛

1673-2286

11-5359/G2

2022,(3)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn