DOI：10.11925/infotech.2096-3467.2020.0071

面向中文学术文本的单文档关键短语抽取

引用

摘要：

[目的]自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达.[方法]引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语.[结果]在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128％.[局限]未识别三个及以上词语构成的关键短语.[结论]相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点.

关键词：关键短语抽取、学术文本挖掘、TextRank、词图

所属期刊栏目：4

分类号：G353(情报学、情报工作)

资助基金：本文系国家社会科学基金重大项目“大数据环境下政务信息资源归档与管理研究”项目编号:17ZDA293

在线出版日期：2020-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：76-86

英文信息展示

期刊专题