联合知识图谱和预训练模型的中文关键词抽取方法

引用

摘要：

关键词表征了文本的主题,是文本概念和主题的凝练.通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑.近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战.一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想.针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法.该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序.在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验.实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法TF-IDF相比F1值提高了9.14％,与传统图方法TextRank相比F1值提高了4.82％.

关键词：抽取、知识图谱、句嵌入、聚类、图算法、预训练模型

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：军事类研究生资助课题JY2019C078

在线出版日期：2022-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：243-251

英文信息展示

期刊专题