10.7544/issn1000-1239.2020.20200432
基于随机投影的高维数据流聚类
高维数据流在许多现实应用中广泛存在,例如网络监控.不同于传统的静态数据聚类问题,数据流聚类面临有限内存、单遍扫描、实时响应和概念漂移等问题.然而现有许多数据流聚类算法在处理高维数据时,常常因产生维数灾难而导致高计算复杂度和较差的性能.为了解决此问题,基于随机投影和自适应谐振理论(adaptive resonance theory,ART)提出了一种针对高维数据流的高效聚类算法RPFART.该算法具有线性计算复杂度,仅包含1个超参数,并对参数设置鲁棒.详细分析了随机投影对ART的主要影响,尽管该算法仅简单地将随机投影与ART方法进行了结合,但在多个数据集上的实验结果表明:即使将原始尺寸压缩到10%,该方法仍可以达到与RPGStream算法相当的性能.对于ACT1数据集,其维数从67 500减少到6750.
高维数据、数据流聚类、随机投影、自适应谐振理论、聚类
57
TP391(计算技术、计算机技术)
国家自然科学基金重点项目61732006
2020-10-13(万方平台首次上网日期,不代表论文的发表时间)
共14页
1683-1696