10.3772/j.issn.1000-0135.2010.04.001
一种基于主成分和密度的改进型动态数据流聚类算法
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.
数据流聚类、主成分分析、密度、滑动窗口
29
TP3;O21
国家自然科学基金70671094;浙江省自然科学基金重点项目Z1091224;浙江省自然科学基金Y1090617;浙江省科技计划项目2009C13G2050020
2010-09-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
579-585