基于计数的数据流频繁项挖掘算法
挖掘数据流的频繁项已受到广泛关注,经典的频繁项挖掘算法尽管能够比较好地找到频繁项,但对频繁项频数的估计往往存在较大误差.SRoEC(segment rotative efficient count),SReEC(segment reserve efficient count)和RFreq(reserve frequent)算法针对该问题,继承基于计数的算法思想,将计数器进行划分并定义相应的操作,以期提高频数统计准确度并减小“噪音”影响.实验和数据分析表明,这些算法不仅能够保证频数超过阈值的数据项都能被找到,而且大大提高了频繁项频数统计的准确性.在同样空间代价下,算法无论在模拟数据集和真实数据集实验中,都表现出较高的频数准确率、较低的频数偏差率和较高的频数保有率,尤其是数据分布较平缓时,算法优势更加明显.
频繁项、Top-K、数据流、数据挖掘、频数估计
48
TP391.41(计算技术、计算机技术)
高等学校博士学科点专项科研基金项目20090071120092;IBM CRL UR基金项目JSA201007005
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共9页
1803-1811