基于语义相似度的文本聚类研究
[目的]为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法.[方法]通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵,根据文本语义相似度矩阵进行谱聚类,将文本聚集为文本簇.[结果]利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验,结果表明,当聚类个数为10时,本文算法的准确率最高,并且Purity值高于传统聚类算法的Purity值.[局限]《同义词词林扩展版》中包含的领域术语不完整,部分相似度计算结果需要手工进行调整.[结论]该方法考虑了词语间语义关系,充分挖掘文本主体潜在信息,并且改善了聚类质量,为文本聚类和推荐提供了一条新途径.
同义词词林扩展版、语义相似度、谱聚类、文本挖掘
G250.7(图书馆学、图书馆事业)
本文系国家自然科学基金项目“语义网络环境下数字图书馆资源多维度聚合与可视化展示研究”项目编号:71273111的研究成果之一.
2017-03-13(万方平台首次上网日期,不代表论文的发表时间)
9-16