DOI：10.3969/j.issn.2095-2163.2023.02.005

融合位置特征的关键短语集合抽取模型

引用

摘要：

关键短语抽取任务是文本知识抽取任务的基础性工作,存在关键短语抽取边界不清晰、抽取结果重复率较高等问题,导致抽取结果准确性不佳.本文针对关键短语出现在文章中的位置特征建模,基于Transfomer编码器-解码器结构,结合位置特征与预训练模型对关键短语进行预测,提出一种端到端的关键短语预测模型;在模型训练过程中,采用了基于匈牙利算法对预测值与真实值进行序列对应的交叉熵损失函数,使关键短语预测过程,排除序列生成方法中预定排序的影响,并以集合的方式抽取关键短语.分别在Inspec、SemEval2017、KP20k数据集进行了实验验证,与现有方法相比较,本文模型F1值均有所提升,有助于提升文本信息的关键短语抽取效果.

关键词：关键短语抽取、位置特征、知识抽取、编码器-解码器、预训练模型

所属期刊栏目：13

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家重点研发计划;国家自然科学基金;公安部技术研究计划项目

在线出版日期：2023-02-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：20-28

英文信息展示

期刊专题