DOI：10.3969/j.issn.1002-1965.2021.05.022

融合知识库语义的文本聚类研究

全文直达

下载全文

在线阅读

引用

摘要：

[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用.基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进而影响聚类效果.[方法/过程]针对以上问题,本文从词语语义关系的角度出发,基于知网知识库和同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度.[结果/结论]实验结果显示,基于本文方法的文本聚类在查准率、召回率和F1值等指标上都有较好的表现.

关键词：同义词词林、知识库、文本聚类、语义

所属期刊栏目：40

分类号：G350(情报学、情报工作)

资助基金：中央高校基本科研业务费专项中山大学项目19wkpy149

在线出版日期：2021-05-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：156-164

英文信息展示

期刊专题