深度词汇网络学习的文本聚类研究

引用

摘要：

为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题.首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间.聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现.

关键词：词汇网络、深度学习网络、中文文本聚类

所属期刊栏目：42

分类号：TP391(计算技术、计算机技术)

在线出版日期：2015-04-13（万方平台首次上网日期，不代表论文的发表时间）

页码：107-112

英文信息展示

期刊专题