基于语义相似度的文本聚类研究-期刊-万方数据知识服务平台

搜索

基于语义相似度的文本聚类研究

1.吉林大学管理学院长春1300222.吉林大学管理学院长春130022;内蒙古大学图书馆呼和浩特010021

引用

打印

摘要：[目的]为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法.[方法]通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵,根据文本语义相似度矩阵进行谱聚类,将文本聚集为文本簇.[结果]利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验,结果表明,当聚类个数为10时,本文算法的准确率最高,并且Purity值高于传统聚类算法的Purity值.[局限]《同义词词林扩展版》中包含的领域术语不完整,部分相似度计算结果需要手工进行调整.[结论]该方法考虑了词语间语义关系,充分挖掘文本主体潜在信息,并且改善了聚类质量,为文本聚类和推荐提供了一条新途径.

关键词：

同义词词林扩展版语义相似度谱聚类文本挖掘

分类号：

G250.7(图书馆事业、信息事业)

资助基金：

国家自然科学基金 ( 71273111 )

在线出版日期：

2017-03-13 （万方平台首次上网日期，不代表论文的发表时间）

英文信息

同项目论文

71273111:国家自然科学基金