10.11925/infotech.2096-3467.2020.0071
面向中文学术文本的单文档关键短语抽取
[目的]自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达.[方法]引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语.[结果]在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%.[局限]未识别三个及以上词语构成的关键短语.[结论]相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点.
关键短语抽取、学术文本挖掘、TextRank、词图
4
G353(情报学、情报工作)
本文系国家社会科学基金重大项目“大数据环境下政务信息资源归档与管理研究”项目编号:17ZDA293
2020-10-16(万方平台首次上网日期,不代表论文的发表时间)
共11页
76-86