期刊专题

10.11925/infotech.2096-3467.2020.0071

面向中文学术文本的单文档关键短语抽取

引用
[目的]自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达.[方法]引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语.[结果]在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%.[局限]未识别三个及以上词语构成的关键短语.[结论]相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点.

关键短语抽取、学术文本挖掘、TextRank、词图

4

G353(情报学、情报工作)

本文系国家社会科学基金重大项目“大数据环境下政务信息资源归档与管理研究”项目编号:17ZDA293

2020-10-16(万方平台首次上网日期,不代表论文的发表时间)

共11页

76-86

暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

4

2020,4(7)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn