基于时间衰减模型的数据流频繁模式挖掘
频繁模式挖掘足数据流挖掘中的重要研究课题.针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间哀减模型相结合的数据流频繁模式挖掘算法.该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数进行统计,以此刻画界标窗口内模式的频繁程度;进而,为有效降低空间开销,设计了剪枝阈值函数,用于对预期难以成长为频繁的模式及时从全局树中剪除.本文对出现在算法中的重要参数和阈值进行了深入分析.一系列实验表明,与现有同类算法MSW相比,该算法挖掘精度高(平均超过90%),内存开销小,速度上可以满足高速数据流的处理要求,且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.
数据流、频繁模式挖掘、数据挖掘、时间衰减模型
36
TP2(自动化技术及设备)
国家高技术研究发展计划863计划项目2006AA01Z451;2007AA01Z4741
2010-11-19(万方平台首次上网日期,不代表论文的发表时间)
674-684