DOI：10.11896/j.issn.1002-137X.2018.01.008

基于Nystr(o)m采样和凸NMF的偏好聚类

引用

摘要：

大规模的稀疏图数据在现实中大量出现,例如协同图、拉普拉斯矩阵等.非负矩阵分解(NMF)已经成为数据挖掘、信息检索和信号处理的一个非常重要的工具.随着数据量的不断增大,如何实现大规模数据的偏好聚类是一个重要的问题.采用两阶段的方法来实现大规模的偏好聚类,即首先利用Nystr(o)m的近似采样方法,从大数据上获得数据的初始轮廓,获得部分用户-用户相似矩阵或电影-电影相似矩阵,从而可以将原始的高维空间降低到一个低维子空间;然后通过对低维相似矩阵进行凸的非负矩阵分解,从而得到聚类的中心和指示器,聚类的中心表示电影或用户的特征,指示器表示用户或电影特征的权重.该两阶段偏好聚类方法的优点是,初始数据轮廓的近似获取以及凸的非负矩阵分解,使得该方法具有较好的鲁棒性和抗噪性;另外,子空间的数据来源于真实的矩阵行列数据,使得偏好聚类结果具有良好的可解释性.采用Nystr(o)m方法解决了大规模的数据无法在内存中存储的问题,从而大大节省了内存,提高了运行效率.最后在合有100000条电影的数据集上进行偏好聚类,结果表明了该聚类算法的有效性.

关键词：Nystr(o)m方法、凸的非负矩阵分解、偏好聚类、聚类中心、聚类指示器

所属期刊栏目：45

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金61572419,61572418,61403328,61403329;山东省自然科学基金ZR2014FQ016,ZR2014FQ026,2015GSF115009,ZR2013FM011

在线出版日期：2018-04-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：55-61,78

英文信息展示

期刊专题