10.3969/j.issn.1006-2475.2015.12.008
一种适宜于子空间聚类的离群点检测算法
大数据处理面临数据信息缺失、信息杂乱、数据污染等诸多挑战,而离群点的检测与剔除是大数据分析中一个重要的预处理过程.本文针对数据分析中的子空间聚类问题,在数据受到离群点污染的情况下,基于离群点稀疏性的先验知识,对经典的k-subspace子空间聚类算法融入e1范数正则化,并采用随机梯度下降优化方法进行子空间聚类,以克服大数据处理计算量大和内存需求高的困难.通过数值仿真,本文方法能够保证在数据受到严重离群点污染的条件下,可以精确检测并剔除离群异常数据,从而获得准确的子空间聚类结果.
大数据处理、离群点检测、子空间聚类
TP312(计算技术、计算机技术)
国家自然科学基金资助项目61203273;国家电网公司科技项目524681140009
2016-03-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
39-42