10.3969/j.issn.1002-1965.2021.05.022
融合知识库语义的文本聚类研究
[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用.基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进而影响聚类效果.[方法/过程]针对以上问题,本文从词语语义关系的角度出发,基于知网知识库和同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度.[结果/结论]实验结果显示,基于本文方法的文本聚类在查准率、召回率和F1值等指标上都有较好的表现.
同义词词林、知识库、文本聚类、语义
40
G350(情报学、情报工作)
中央高校基本科研业务费专项中山大学项目19wkpy149
2021-05-31(万方平台首次上网日期,不代表论文的发表时间)
共9页
156-164