10.3778/j.issn.1002-8331.1412-0418
结合语义改进的K-means短文本聚类算法
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。
文本挖掘、短文本聚类、K-means算法、最大频繁词集、知网、语义相似度
52
TP391.1(计算技术、计算机技术)
国家自然科学基金No.71371091;辽宁省高等学校杰出青年学者成长计划No.LJQ2012027;辽宁省教育厅一般项目No.L2013131。
2016-11-02(万方平台首次上网日期,不代表论文的发表时间)
共6页
78-83