面向用户生成内容的短文本聚类算法研究
针对用户生成内容中短文本特征语义描述能力弱和K-means算法对初始聚类中心选值的敏感性问题,通过维基百科概念、链接结构和类别体系信息对短文本进行特征扩展以补充其语义信息.进而以文本间语义关系为基础构建文本集加权复杂网络,利用节点综合特性来选取初始聚类中心,并结合K-means算法对网络节点进行社团划分以达到短文本聚类的目的.实验结果表明,该方法能够有效提高短文本聚类效果.
短文本聚类、特征扩展、复杂网络、K-means算法、用户生成内容
G350(情报学、情报工作)
2013-10-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
88-92